孙斌 爱奇艺高级总监
主要负责爱奇艺的大数据中台、商业智能、内容智能制作等业务。在互联网产品设计和研发方面有十多年经验,曾就职于微软、hulu、雅虎等公司。
摘要:爱奇艺的业务已经从单一的视频业务发展为“大苹果园”的泛娱乐生态,伴随着业务的高速发展,从成立至今的9年多时间内,爱奇艺累积了全行业最丰富的娱乐大数据。
随着AI和大数据的发展,以及云计算能量的释放,爱奇艺的娱乐大数据的规模化效应呈爆炸式增长,高速发展的业务需要一个健壮稳定的中台去支撑,爱奇艺大数据中台应运而生。
本次交流着重介绍爱奇艺大数据中台战略的由来、发展以及对公司和行业的影响,将会覆盖大数据中台的历史,基础架构,落地赋能应用以及未来的发展方向,也涵盖爱奇艺对整个泛娱乐行业数据驱动业务的理解。
爱奇艺,一家以科技创新为驱动的伟大娱乐公司
众所周知,爱奇艺本身是一家以科技创新为驱动的伟大娱乐公司。现在大家看到的大量影视综艺内容,很多都是爱奇艺的主要品牌。
爱奇艺一路走过来,在商业模式上也做了相关的创新,旨在打造多样化的货币化IP合作模式。爱奇艺的创始人是工科博士,非常注重技术和数据。爱奇艺内部有个不成文的规定,旗下产品技术的人数比例需要占到公司一半,因此,爱奇艺全站做了很多独立的技术体系。
上图大家看到中间有个金字塔,这里面涉及几个专业名词:PPC、PGC和UGC。顶层PPC是指最专业的内容,来自影视综艺,所有大剧、大片通过正版版权进行售卖、交换的商业模式;中间的PGC是专业的中转视频,相对比较短的视频,但在各方面都做得比较好;最底层UGC,可以是在座各位手机录的视频。
最顶端的商业模式,基本上是以正版视频内容通过会员付费模式为主,通过广告收入以及其他发行之类的东西为辅。最底层商业模式,目前比较火的头条系产品(比如快手),以更加灵活、丰富的变现商业模式,包括打赏、电商代货等等。对比看来,中间一层相对比较灵活。
除了大家熟悉的爱奇艺APP,我们产品形态的腰部和最底部,同样也做了大量地尝试。从我们主营业务(在线广告+视频内容)的基础上衍生出来整个泛娱乐生态,包含:网络文学、网络游戏、在线直播、网络漫画、轻小说、票务以及网上商城等,会探索到不同的领域。
企业文化是一个公司里非常独特的基因,爱奇艺通过独特的企业文化来解读娱乐,我们对标各种各样的国内外领先科技公司。视频网站最大的两大成本分别是带宽和版权。所以大家可以看到,国内外所有大的视频网站,从美国的奈菲、亚马逊hulu到中国前三家,大家都有别于传统公司,在做自制内容。
提及爱奇艺的行业规模,这里有几个比较直观的数字。我们的用户量月活有6亿,这个数字基本持续了一到两年时间。而且,我们稳定1.8亿日均独立设备数。全平台日均总使用时长3.5亿小时。种种数据显示,爱奇艺是不同寻常的大数据典型的应用。
爱奇艺大数据中台战略
大数据中台这个概念,在行业里被提出差不多四五年时间。与此同时,爱奇艺内部已经做了很久关于中台的事情。大家可能第一反应就是,一个视频播放平台虽然体量比较大,但是场景单一,为什么会需要大数据中台或者更强大的中后台来支撑?
大家会通过各种各样的APP看到不少讲“大中台小业务”,这就允许我们前面做各种各样的业务迭代、业务尝试。坦白来讲,所有公司都在做中台,但重要的是能不能很好的把相关数据资产沉淀下来。
爱奇艺曾提出过一个概念:苹果园。最早爱奇艺是视频业务,后来从周边衍生出来一些新的业务,这便是我们的苹果树模型。从苹果树的模型往下延伸,远远不是跟视频场景周边相关的,而我们不仅可以在场景上做各种各样的关联,还可以在人群中做各种各样的关联。
我们提出从苹果树,到苹果园泛娱乐生态矩阵。简单地说,我们有长视频、短视频、小视频、奇巴布、爱奇艺阅读、叭哒、泡泡、奇秀直播、爱奇艺知识、体育、电商等等。以下是爱奇艺整个硬件产品的矩阵。
针对中台战略“金字塔”,从底部往上,分别是数字资产沉淀、统一数据平台|技术内核工具、业务互动三个层面。抛开商业模式,纯粹从用户角度看爱奇艺,爱奇艺最主要两个东西是:用户(人)和内容(IP)。
讲到数字资产,重点核心关键词是“统一”。所有不同的东西,我们如何把它能够关联起来。大数据中台在这里面体现的是OneID,如果真正把OneID人、物串起来,最终实现在这基础上各种各样的广告投放、内容变现都有可能。
再讲数字资产沉淀,当你把用户和内容进行实景兑现化,一定要把它在逻辑上放到一个统一的大数仓,才有可能在此基础上进行各种各样的计算。并不是说,非物理存储上在同一个地方。数据中台概念是我在逻辑上对所有数据进行管控,所有血缘、上下游关系清晰记在册的,基于这上的数字资产管理才变得有序。
左侧最上层基础上,对各种各样的复杂业务场景,智能硬件场景、爱奇艺阅读、爱奇艺视频场景,如何让所有行为让机器认识而且明白中间的关联,除了OneID之外的行为,在此行为上用户分析才能真正有意义。
这里有个关键是“主题”,比如所有付费的会员业务这是一个主题,电商业务也是主题,奇秀直播业务也是主题。如何能够让数据结构后面去利用好大数据中台,更好地去实现业务上的诉求,这里面有一个业务主题的概念,这也是我想突出的。
中间统一管控加上规范化,再到这一端开始发挥价值。
比如投资资产,在一些IP我们要做全生命周期的管控,也许有可能它只是一个概念或者仅仅有一本比较古老的小说的时候,怎么能够发现它潜在的价值?第二块是用户增长,这个是最近比较火热。最后一块讲数据赋能,比如大家知道的数据赋能广告、数据赋能风控等。
讲了这么多资产沉淀,到底大数据平台是什么样的,中间层统一大数据平台和技术内核工具。我重新再强调一个关键词 “统一”,在此基础上再加一个关键词“透明”。
大概在三个月前,我们团队刚刚做了大数据沙龙,专门分享了数据治理。数据治理这一块就是让所有的数据有序且对上对所有的上层业务透明,而是指所有业务关系、血缘关系,所有地图都可查而且非常有利于理解。在此基础上突出非常重要的关键词“透明”。
还有一个关键词是“兼容”,大家看爱奇艺有那么多业务,有些是爱奇艺自制的,有些是合作的,如何实现所有这些东西兼容?比如存储上的兼容、通讯引擎上的兼容、地域上的兼容等。再往上是大家非常熟悉的关键词,比如画像标签、行为标签。最底层是所有数据的接入,用户全域数据、IP数据以及外部交换数据。
上图大数据平台的架构,其实各家所用的技术站各个方面差别不大,主要有两点。第一点如何能够很好的服务于不一样的独立业务场景,如何能够应对海量的大应用。第二点,系统整体的健壮性。在此基础上整体这套东西非常简单就是为了实现敏捷开发,以此降低各种各样的成本。
金字塔最上层的业务互动,大家对数据最基本的认识就是看、读、用、懂。看数据处在工作的刚需层面,在此基础上,真正通过数据得到启发,来指导业务的话,可以进入第二阶段的读数据,再往上一层是用数据,在数据中找到洞察,从而指导我们的工作。最上层是比较经典的业务模型,在此基础上去设计业务和系统。
在爱奇艺内部,目前在我们实现半自动埋点,并不是说我们不能实现全自动(全埋点),我个人认为这对于一个有很多诉求的大场景来说,是会有很多冗余数据,所以我们是半自动。在此基础上,整体的BI应用、AI应用,各种各样的留存分析、报表,即是我们整个业务增长体系的所有东西。
从懂到用:降低时间、操作门槛。在爱奇艺内部我们有一个文化,我们所有数据相关的业务部门和大数据部门定期都有业务数据分析的分享会。
最后总结一下, “大中台、小前端”,而且我们是在娱乐大数据领域拥有非常专、非常深的应用。
爱奇艺的大数据中台战略使以用户为核心的持续的规模化业务创新成为可能,业务响应能⼒和规模化创新能力,是互联⽹时代企业综合竞争⼒的核⼼体现。正是因为拥有这种核心竞争力,爱奇艺才能利用好自己的娱乐大数据,在泛娱乐领域遍地开花,以一系列创新业务来领跑行业!