一、这九个名词和数据中台息息相关
谈起数据中台,虽然众说纷纭,但一定不是千人前面,归根结底是有统一的标准的。
新事物免不了被放在台面上评判,但是度过了普及的过程,总会有一个公允的定义得到广泛的认可和接受。这个过程中,最可以用于度量的便是「功能定义」与「业务价值」。
数据中台表现出的最主要特征是一种企业数据化体系的架构,而且就目前而言,这种架构是最为有效的一种架构。
目前很多人把数据中台直接等同于企业数据化,AI和大数据,或者是直接的业务价值,甚至企业变革(比如新零售)。这些都是不准确的,数据中台的价值被过于放大,数据中台,数据应用,直接业务价值应当给予分层讨论。
下面对目前使用的名词做一个统一罗列,然后再开展讨论:
数据源
当数据还在应用界面的时候,我们称这些数据是数据界面的数据源。数据源存储在一个个的数据库,文件和流中,由各种应用,中间件和物联网设备所产生。
数据资产
数据源中的数据经过拷贝进入到数据界面,存储在ODS层后,再经过基本的数据清洗后进入DWD和DWS层,这些数据称为数据资产。ODS层的数据也可以纳入数据资产范围。
数据中台
数据界面的一种架构,职能定位是所有数据的汇聚之所,以及为上层数据应用提供支撑的平台基础。
数据应用
在数据中台提供的数据基础上,进行各种数据计算,得出的结果可以直接为业务界面和应用界面所使用,使用数据的过程也是数据对业务发挥价值的过程。
数据质量
凡是数据内容与数据模型约定不一致,或者不符合现实情况的;凡是同样的客观事实因为被不相同数据模型定义和描述而产生内容冲突的,都可以视为数据质量问题。我们这里的数据质量更多的是指数据源的数据质量。
数据治理
这里特指为了解决数据资源的数据质量问题而采取的种种方法和措施,目的是提升数据资源的数据质量,从而让数据资源在成为数据资产后可以更好的为数据应用所使用。
业务界面
企业的客观业务。
应用界面
大部分为传统信息化建设的内容和成果,包含各种软硬件系统,操作系统,数据库,网络等等。
数据界面
将数据从应用界面复制出来,然后通过数据计算,将数据结果回馈到业务界面和应用界面从而产生业务价值。
二、
本篇文章重点阐述对数据中台的定位和理解:
2.1 数据中台是一次数据技术上的整体提升
曾经有人说“大数据技术从拥有大数据的地方产生”,笔者深以为然。互联网行业的兴起让我们真正见识到了什么是海量的数据,而对海量数据的应用需求则让大数据处理技术逐步成熟和完善。
然而在传统企业中,很长一段时间内,传统数据仓库技术和大数据技术应用一直处于并行的状态:传统数仓处理结构化数据,大数据平台存储非结构化和半结构化数据。
归集这一状态的原因:一方面是传统数据仓库的应用十分成熟,另一方面是开源大数据的使用门槛较高。现在阿里云的数加平台,袋鼠云的数栈平台等都能很好地解决这个问题。
基于数加、数栈等成熟的大数据平台产品:
一方面,企业可以顺利高效地实现从传统数据仓库技术到大数据技术架构的迭代升级;
另一方面,数栈等产品保证了产品的商业化应用体验:所有的操作界面都是呈现在浏览器中,所有的数据计算引擎完全被操作界面屏蔽,所有的指令都是通过准SQL语法及简单拖拉拽的操作来完成。
这是一次完整的数据技术平台的提升,也标志着大数据平台(分布式数据仓库)的商用化。
相比于传统数据仓库,当前的分布式数据仓库,数据存储能力至少提升了一到两个数量级,数据处理能力也从传统的结构化数据扩展到半结构化和非结构化数据。在功能上,除了很多企业因为原有的IT资产而无法立刻废弃已有传统数据仓库的情况,如果企业要从0建设企业数据仓库的话,我们有100个理由告诉企业要选购新型的一站式、可视化的分布式数据仓库,而不采用那些耳熟能详的传统数据仓库产品。
2.2 数据中台是一种架构
与其说数据中台是一次技术的革新与进步,不如说数据中台是企业数据化的一个整体架构。
2.2.1. 数据中台是全域数据的汇聚之地(从数据源拿数据)
如果我们在业务界面发现的每一个“0”、“1”数据,都能够在数据中台中找到,那么数据中台的建设就成功了一大半了。数据中台的最主要目的就是将企业业务范围内可以触碰到的一切数据都能够存储在中台之中。
对于规模越大的企业这个难度就越大,因为数据的完整汇聚,一方面是技术、成本的困难,另一方面是管理的困难。但是,相对应的,实现数据的完整汇聚,产生的价值也对应更大,尤其是大型集团型企业,打破部门墙,业务线壁垒,然后能将所有的数据汇聚,本身就会产生巨大的价值。
2.2.2. 数据中台对数据源的数据质量提供分析和监控报告
当所有数据进行数据中台ODS层的时候,我们便可以对所掌握的来自各数据源的数据,进行全面和深入的数据质量分析。比如基础数据的一致性;业务数据中,数据内容与模型是否匹配;数据是否不完整或者数据缺失等问题。数据源的数据质量分析报告可以有效的推动企业数据治理项目,并作为数据治理项目的效果评估依据。
2.2.3. 数据中台拥有完整数据模型
所有进入数据中台的数据,将被装入一个完整的数据模型中。OneData的定义也就是由此而来。这个完整的数据模型,保障了数据的完整性、一致性和可用性。这也是数据中台最终让数据应用得以快速高效开发的基础。
2.2.4. 数据中台向上支持数据应用
数据中台的最终目的还是要有效支撑数据应用。
所有数据应用的数据开发都会在数据中台中进行,并将开发的结果吐到ADS层。最细粒度的开发结果就是指标、标签和算法函数。在这些成果的基础上,我们会构建一个相对友好的人机或者是机机界面。人机界面一般是BI产品拖拽产生或者是定制化开发完成,而机机的界面则是数据API接口。
基于我们近两年的实践评估,数据中台的构建能够让绝大部分数据需求得以实现,使得每个数据应用的实现效率提升50%以上(节约了数据采集,数据处理的时间,只需要关注数据应用开发)。
2.3 数据中台是企业数字化驱动双引擎
如上所述的数据中台,看起来,只比传统的数据仓库、数据中心、数据湖略有进步。除了技术层面的大幅提升外,也许只有数据治理分析算是一个亮点了。
那么数据中台是不是只是这样呢?
为什么传统的架构没有最终驱动企业数据化的成功转型呢?
笔者在企业数据化建设三范式里表述了自己的观点。所以希望通过数据化驱动引擎的构建来驱动企业数据化建设,相信后续双引擎的建立也会成为数据中台与传统数据中心建设的真正区分点。也希望这两个引擎后续成为数据中台建设的标配产品:
1. 企业数据化规划引擎
企业数据化规划引擎由几个部分组成:
第一,企业数据资源盘点,把企业所有的数据资料理清楚。
第二,企业业务场景描述,企业的业务是什么,有多少职能,有多少业务场景;
第三,企业数据场景描述,直接描述数据应用场景,展现数据价值;
第四,企业指标体系,企业实体标签体系,企业数据服务算法函数。最终把这四项进行贯通和评估,就形成了企业数据化的规划引擎。企业数据化建设可以依照规划内容,逐步建设。
2. 企业数据化运营组织
当前的企业数据化建设,离不开数据价值产生道路上最后一米的建设:即把最终的数据,给到业务部门,并且让业务部门用熟悉,用好数据。
这个是在传统企业中不可避免,也不能忽视的问题。当我们看着众多的业务参数和各种率的时候,难免心生怨念,而觉得当前的业务也是可以运转的。数据运营组织的最大职责就是拉通数据和业务价值。让业务部门用好数据,然后再从业务部门收集需求,对效果一般的应用场景找出问题原因,进行二次,三次迭代。