在钛媒体集团及旗下中国最大技术社区 ITValue联合主办的“2017 IT价值峰会暨中国企业级技术峰会”中,Informatica中国区资深产品专家孙大山、Informatica中国区技术顾问冷鹏介绍了数据3.0时代的数据治理之道。
Informatica成立于1993年,到现在有24年的历史,一直专注在数据管理领域。Informatica在全球拥有超过7000家客户,遍布各行各业。根据Gartner的相关报告,Informatica是多个数据管理领域的领导者,包括数据集成管理、数据质量管理、主数据管理、元数据管理、数据安全管理、数据归档管理、云数据集成等。在所有的细分领域当中,Informatica都常年位居领导者地位。
Informatica在中国耕耘了十多年的时间,到目前有超过600家客户,而且都是各个行业当中非常具有代表性的客户,包括金融、政府、电信、能源、制造、物流、医疗等等。孙大山表示,由于各个行业对于数据的诉求其实是相似的,所以从数据这个角度来看,不同的行业差异性并没有那么大,这也是Informatica在诸多行业都有成功案例的原因。
进入数据3.0时代
现在进入到数据爆炸的时代,对于数据管理的要求和诉求越来越多,面对的数据也是越来越多。从数据的角度,可以把整个IT发展分为三个阶段:数据1.0时代、数据2.0时代和数据3.0时代。
第一个阶段为数字1.0时代,在这个时代主要是聚焦在以系统为中心,包括销售系统、财务系统、办公系统、人力资源管理系统等。
第二个阶段为数字2.0时代,IT系统在2.0时代建设的差不多了,数据开始需要在不同的系统当中流转和交互,构建跨系统、跨部门之间的流程,所以进入了以流程为中心时代。
在数字2.0时代,有了数据集成的概念。数据集成体现的是企业对于数据管理的能力,数据能否流动起来、能否交换起来、能否支撑不同的业务场景、不同部门之间的流程化应用。从目前来看,大多数企业还是停留在数据2.0的时代,也就是以业务流程为导向,进行数据的交换和使用。
第三个阶段即数据3.0时代,这是一个以数字驱动运营的时代,在数据3.0时代不再是以系统为中心、也不再是以流程为中心,而最终迈向以数据为中心。在这个阶段,数据是最大的资源。在数据3.0时代,所有的流程都服务于数据,哪里需要数据、数据就到哪里,或者所有的业务都构建在一个完整的数据大平台上。
孙大山表示,现在很流行一种系统建设的思路叫做大平台、小应用。原先是一个一个像竖井、烟囱一样的系统,数据被分散孤立在不同的环境当中,未来一定是迈向到一个大的数据平台,所有企业的数据都集中在这个大平台之上,去构建一个个小而灵活的应用。
认识到数据价值和最终的转化之间存在着一个巨大的差距,拥有数据不代表拥有价值,只有用科学有效的手段转化出来,才能够看到数据的价值。都说大数据是一个金矿,但需要用更多的时间、更多的精力去把价值发掘出来。
数据价值挖掘的三个挑战
从数据的不同方面解决价值挖掘,将遇到几个问题:数据孤岛、集成毛团和数据质量。
首先是“数据孤岛”,数据1.0时代不停的建系统,建完之后发现所有系统都像竖井一样形成一个个的孤岛,数据被锁定在孤岛中。
其次,数据2.0的时代,数据开始流转,开始采用不同的方式方法进行数据交换的管理,但并没有一个统一的思想或者统一方法,更多采用一次性集成手段。当系统越来越多,一次性集成手段越来越庞杂,导致很难梳理清楚到底系统对外有多少个实际接口、都是什么样的实现方式,于是形成了“集成毛团”。
第三就是数据质量的问题。当粗放式的经营过后,开始慢慢走向精益化管理的时候,数据质量问题最终将导致很多应用的问题。以上三大问题,阻碍了数据管理的道路。
对应“数据孤岛”问题有很多解决的方法,如果采用的方式非常多样化,最终会产生一个点到点的数据架构,形成集中化、统一的整体集成架构,能够很好的帮助解决“集成毛团”问题,把所有的数据交换、数据交付的过程通过集成化、集中化平台来实现。当业务系统发生变化的时候,只需要在中间环节做调整即可,所以这是一个符合SOA的松耦合平台化整体架构。
孙大山表示,Informatica从数据管理的角度,帮助企业建立一个以数据为中心的架构,在这个架构当中不再是系统与系统之间的一次性的集成,而是构建起统一的数据管理平台,由数据管理平台来管控整个企业内部所有数据交换,以企业SOA架构来进行整体式管理,在一个大的平台中管理数据的可信度、时效性以及数据安全。
数据质量管理是一个持续过程
解决了数据集成和交换问题后,接下来就是到端到端的元数据管理。元数据管理、数据质量、主数据是数据治理的“三兄弟”。基础是什么呢?基础是数据集成。孙大山表示,很多元数据管理项目失败的一个最根本原因,就是没有把底层的基础打好。
数据质量管理与数据集成管理是两个概念,数据集成是在数据接口和数据交互的过程定义完成后每天运行即可,但是对于数据质量来讲并不是一次性的过程,而是一个循环往复的过程。而且在数据质量管理的过程当中,不再由IT单方面推动。
数据质量要解决很多问题,包括数据标准、数据缺失、数据不可读、数据重复等。解决的方法有五步:发现问题、定义和设计指标与规则、设计和实施规则与动作、流程化与异常管理、监控数据质量指标。此外,业务是7×24小时运行,不停有新的数据出现,新数据又会带来一系列数据问题,就需要时刻调整数据质量管理规则。
孙大山强调,数据质量到底有什么问题,更多的是从业务的角度对数据做定义。例如银行账户上出现1970年开户的数据,业务马上可以判断1970年银行还没有成立,不可能有开户日期。因此,数据质量是基于角色管理流程,不同部门的业务与IT要共同参与到整个数据质量管理过程中。
全景化数据视图
在主数据管理方面,Informatica有完整的主数据解决方案,而且是多域主数据管理。什么是主数据?所有的数据可以分为主数据和交易数据。交易数据是一笔交易的数据,包括购买产品的数量、金额、门店等,但客户名称、购买渠道、购买产品等数据叫主数据。
冷鹏强调,主数据在系统当中占比不到20%,但是它的价值是20%的数据拥有80%的价值。客户存在于不同的系统当中,HR、销售、财务、呼叫客服等,需要把所有分布在系统当中的客户数据整合在一起进行管理,最终实现全景化数据视图。
Informatica强调,要充分发挥数据价值,应以主数据为筋脉,把各类散乱的大数据有效串联起来。Informatica提供综合全面的主数据管理解决方案,能够识别企业内部最为关键的信息并创建单一的真实数据来源。
Informatica MDM产品可获取数据的单一视图,提供关于数据关系的全方位视图,以及涉及所有交互作用的完整视图。Informatica MDM还可应用于企业内部、云端及混合环境部署,可根据企业的业务需求提供多种部署选择及云迁移路径。
智能数据平台
那么,在数据3.0时代,如何构建数据驱动型企业的数据管理架构?孙大山表示,Informatica解决方案采取逐步的分层方法:底层为虚拟化支撑平台、云平台;往上层为数据质量、数据整合、数据安全、流程服务、数据服务和企业数据中心;再往上层是元数据管理;最上层则为数据治理组织(治理委员会),主要负责数据治理制度的主题、职能、流程、系统、项目等。
Informatica智能数据平台是业界第一款混合数据集成平台,为企业搭建了一座从现有内部部署环境过渡到新的云环境的桥梁, 可支持企业跨越所有部署模型、数据类型和潜在因素部署数据管理功能, 其核心是CLAIRE智能化引擎。CLAIRE是由元数据驱动的人工智能引擎,它将机器学习及其他人工智能技术应用于企业范围的数据和元数据,可为Informatica的全系列数据管理产品和解决方案提供智能化服务。
冷鹏最后强调了数据管理与数据治理的区别,因为国内企业往往把数据管理与数据治理混为一谈。企业在进行自检的时候,要问如下6个问题:1,企业系统间的数据访问是否通畅?2,企业的数据能否呼之欲出?3,企业的统计和报告是否准确可信?4.企业的客户数据是否统一一致?5,企业数据是否有被盗卖的风险?6,企业数据能否被审计?如果上述问题出现3-4个时,企业应该做数据治理而不是数据管理,要先做好数据治理才能管理好数据。
随着全球“数字宇宙”的快速膨胀,企业的大数据正在形成“压力锅”,并濒临“爆锅”状态。孙大山和冷鹏2017 IT价值峰会技术大牛公开课上分享的Informatica数据集成平台、主数据管理、智能数据平台、企业信息目录和数据治理等方面的技术、产品、解决方案与案例等,引起了广大与会技术高管的高度重视,为数据3.0时代的数据治理提供了指南。