「数据中台」最早是由阿里提出,对标国外「Data Lake」(数据湖)的概念。该概念提出的背景是因为阿里生态系中淘宝、天猫、蚂蚁金服、盒马鲜生等业务板块每天产生大量有价值的数据,要实现在不同业务群间做到数据的互联互通,以及对数据价值的最大化挖掘,便需要对各业务群的数据进行整合以建立集团层面的「数据中台」,统一管理和应用数据。
对于大部分广告主而言,「数据」仍是一个较为陌生的词。尽管「数据驱动」代表了先进生产力,但在数据缺少的情况下,企业市场部也仍旧在正常运作,那花费大量成本搭建数据中台,对于广告主有何价值呢?
01
广告主对营销数据中台的期望是什么?
「数据中台」作为营销技术中最奢侈的投入,是只有大型广告主才需要的资源,其价值在于:
● 赋予广告主数字营销的精细化操作能力,当市场部承接的数字营销预算大到一定程度时,便无法仅凭借营销人员的个人经验对营销活动进行微观操作。而在拥有数据中台后,便可依靠数据+技术,驱动整个营销体系的精细化操作;
● 提升营销执行的ROI:这是广告主最常规的诉求,市场部绝大部分预算都分配在营销执行层面。按照每年1亿的营销投入计算,如果能通过数据提升1%的精准度,就能为广告主节省100万的成本,这是能最直接看到的真金白银;
● 战略视角的营销策略:在打通生产、销售、电商、服务等数据后,市场部就能看到更加连贯的全局数据,可以站在更高维度审视营销在公司战略布局中的定位和作用;
● 提升市场部内部运营的整合度:当市场部内部职能划分过细,便需要通过数据来串接营销运营过程中的市场研究->市场策略->营销执行->效果考核,避免内部信息不对称,提升运营效率 ;
● 加强市场部和其他部门间协作:当企业内部组织架构达到一定复杂度,市场部需要通过数据对接其他部门的运作,在企业统一的考核体系下,于企业内部证明自身价值,争取更多资源;
● 支撑业务的数字化转型:「数字营销」已不再只是营销词汇,数据中台所拥有的资源(数据/IT设施/考核规则/运营人员),除了支持营销场景,还可用于构建各种数字化转型的业务场景,作为CMO和CEO/CGO/CDO对话的核心资本。有趣的是,今天讨论建立营销数据中台的,除了市场部和IT部门,很多需求是来自更高层的CEO、COO(首席运营官)、CGO(首席增长官),这些高层的诉求是通过「数据中台」来解决业务问题(例如产能过剩、人员效能、获客),支持企业的创新业务(例如新零售、金融科技、数字化管理)。
02
和传统数据仓库对比,数据中台有什么差别?
国外著名咨询公司Garnter把数据管理技术分为三大类:
● 数据仓库——支持大多数已知的数据(结构化的、事务性的)和已知的问题(可重复的、广泛使用的),以交付运行业务的共识。
● 数据湖——支持未知数据(缺乏组织、原始数据和/或外生数据)和未知问题(发现和数据科学导向),以支持探索和创新。
● 数据中心-实现生产、消费系统和流程之中的可管理与可治理的数据共享。
与存储「已知」结构化数据,解决「已知问题」的传统数据仓库(Data Warehouse)相比,数据中台存储了大量「未知」的原始数据,利用数据科学(Data Science)可在应用层面进行更多探索,帮助企业解决更多「未知」的商业问题。
数字技术的革命,使得广告主可收集的数据在量级上产生了爆发,因为数据的「量变」,催生了数据管理和应用的「质变」,这是「数据中台」出现的主要原因。如果说传统的「数据仓库」面对的是「小数据」, 「数据中台」处理的则是真正的「大数据」。
这些数据源自广告主的运营过程,数据量级相对较小,每年所能收集的数据很难超过TB级别。数据的使用层面也相对简单,一个初级的数据分析师,可以依靠数据词典轻易读懂每条数据的含义,依靠传统统计学和算法工具就可以完成数据分析,支撑业务应用。
例如CMO想针对贡献了80%收入,但过去2周没有任何采购行为的高消费用户群体做一次活动,不到10行SQL语句就能抽取这些目标消费者数据。
消费者使用的数字设备(手机、电脑、Pad等),每天都产生百万级的行为数据,广告主能轻易在数周内收集到TB级的数据。但这些大数据的管理和应用也对数据中台提出了更高的要求,主要技术革新包括以下三点:
01
数据中台的技术革新1:数据治理的难度增加
传统营销数据大部分是基于email地址、手机号和姓名对消费者进行识别,不同数据源的打通难度较小。但消费者行为大数据基于多种ID(手机号、设备ID、Cookie ID、Mac等,具体在后文介绍),仅依靠广告主自有能力,很难实现ID的打通,打通的比率取决于广告主的数据量大小,在广告主的数据量没有达到足够海量前,需要依靠外部数据资源实现。
此外,消费者行为大数据中异常数据的比率远高于传统数据,例如广告主收集了1000万条浏览过自己主页的设备ID,这里面可能涉及到爬虫、虚假流量、无效浏览等多种场景,真正有价值的消费者数据量甚至会少于异常数据,这时需要通过算法或者外部数据资源对这些无意义的异常数据进行清洗。
02
数据中台的技术革新2:数据分析的方式发生了根本变化
消费者行为大数据的解读没有以往这般「直接」,知道了消费者浏览的URL,知道了他们在每个页面的停留时间,知道了他们经常出现的经纬度,这些大数据如何和业务关联和使用呢?
如果把这些原始数据比喻成蔬菜,在端上饭桌实际应用前,需要经过一个「烹调」的过程,即把原始大数据简化成业务侧能读懂的标签,「烹调」的方式有2种:
a. 基于广告主收集的ID,到外部直接采购现成标签:例如广告主收集到浏览过自己官网的设备ID,想知道这些设备ID背后的消费者画像,可以对接外部数据源,对这些ID补充年龄、收入等标签,这个过程被称为Data Enrichment(数据扩充)。
b. 通过「知识图谱」进行数据结构化处理后,建立自定义标签:例如广告主收集了某消费者一天1000条位置数据,如果手上有全国所有小区的经纬度位置,便能知道这个消费者晚上住在哪个小区。如果有每个小区房价,就能去猜测这个消费者的收入水平。如果有全国办公楼经纬度位置,就能知道这个消费者的大致工作。如果有全国高尔夫球场经纬度,就能知道这个消费者是否有打高尔夫的习惯….
以上这些对于原始数据结构化的「词典」,就被称为「知识图谱」(在后文会有单独有一章节进行解释),有趣的是,同样的行为数据,在连接不同知识图谱后,能获得不同的洞察结果和客户标签体系。知识图谱是广告主解读大数据、建立自己洞察体系的那把「钥匙」。
03
数据中台的技术革新3:数据输出的实时要求
传统从大型数据库中提取数据需要花费数分钟甚至数小时,而今很多大数据的应用场景都是毫秒级别,例如某广告主想让不同消费者浏览自己主页时,看到不同的内容(千人千面),从技术上便需要实现毫秒级别完成以下动作:
消费者ID识别->消费者画像提取->展示图片匹配->图片加载
当以上闭环无法在毫秒级完成,无法实现实时输出,便会出现消费者数秒内打不开企业官网,从而失去耐心直接选择关闭的情况。
03
什么是「知识图谱」
在数据中台搭建过程中,最难的不是IT层面的数据管理,而是将海量大数据化繁为简,变成业务侧能看懂的标签的「分析」过程。
上文提及了分析的两种方式,现在绝大部分广告主大走的都是第一条路线:对于数据收集主要集中在消费者ID,再基于这些ID到外部匹配可用标签。
这种模式的好处是能快速落地,缺点是外部标签成本高昂,而且由于外部供应商缺少行业理解,标签缺乏精准度。从中长期来看,广告主在使用外部标签遇到瓶颈后,必定会转向建立自身标签体系的第二条路线。