腾讯的大数据方法论:修炼十五年,一身烟火气

雷锋网  •  扫码分享
我是创始人李岩:很抱歉!给自己产品做个广告,点击进来看看。  

在与腾讯大数据团队见面前五分钟,我们来到团队所在的办公室,这里有一扇朝南的落地窗,正好将腾讯大厦的全貌和周边的车水马龙尽收眼底。

这副画面,某种程度上暗合了我们对腾讯云大数据的定位:一个巧妙的观察窗。

从这个窗口望出去,我们可以觉察到,腾讯云大数据的“三级跳”式发展:

第一级,是腾讯十余年海量业务的锤炼下,腾讯云大数据不断自我进化,成为保障集团在大江大河中稳步前行的“大心脏”。

第二级,是腾讯开源协同战略过程中,通过Oteam等组织和流程的设计,大数据完成技术层的穿透对齐。散落在集团内部的各种大数据相关的工作,自此归整合一,成功转化为对外赋能的底气和实力。

第三级,是腾讯云大数据在前两级的基础上,逐渐打磨出了自己的完善产品矩阵和成熟标杆案例,一定程度上将腾讯助力数实融合的能力具象化,更清晰呈现于世人面前。

腾讯云大数据这个观察窗,可以观照腾讯内部技术和组织层面的革新,更能清晰看到腾讯如何由内向外地延伸自己的能力边界,帮助企业在数据的无边之海中,建起一座通往创新彼岸的桥。

它也由此成为了一个样本,在讨论企业数字化和赋能产业互联网的当下,颇具参考意义。

一颗已经跳动十五年的“大心脏”


事实上,腾讯大数据的十五年演进道路,没有刻意的提前规划、顶层设计。始终遵循的原则,就是贴着业务而行。

大数据雏形渐显的时间点,可以追溯到2006-2007年间的腾讯。

“当时已经有数据分析报表给到Pony(马化腾)、Martin(刘炽平)这一层,每天都会发封邮件告诉他们业务关键指标如何。”腾讯云副总裁刘煜宏回忆道。

  • 第一阶段:离线计算时代

刘煜宏2005年加盟腾讯,是现在的腾讯大数据平台负责人,亲历了腾讯的大数据成长全过程。他回忆称,腾讯的大数据在2008年左右,突然遭遇了业务膨胀的巨大挑战,QQ、游戏、财付通等业务多头并进。

特别是QQ农场异军突起,业务爆发式增长,把传统的数仓体系压垮,“经常要做交叉分析,业务量一大,系统就出现瓶颈了。”

自建大数据平台,并且把业务从Oracle平滑迁移到新平台上,成为当时大数据团队的头号任务。

尽管当时还是PC互联网,各种数据指标和维度不如现在精细,但要知道,那时候腾讯已经有好些上十亿、上百亿量级的业务了,例如大家所熟知的QZone(QQ空间),迁移难度可想而知。

刘煜宏还记得,QQ蓝钻是第一个迁移到新平台上的重量级业务,大数据团队心理压力不小,派了不少人陪着蓝钻业务的数据分析师,两拨人排排坐,一起目睹业务脚本一个个迁到“新家”——所幸一切顺利,任务顺利完成。

可以说,2009-2011年是腾讯大数据的起步期。在这一阶段,腾讯开始转向构建以Hadoop为核心的离线计算体系,第一代大数据平台由此诞生,完成了从关系型数据库到自建大数据平台的全面迁移。

  • 第二阶段:实时计算时代

但团队很快发现,刚降生不久的第一代平台,又赶不上腾讯高歌猛进的业务增速了。

管理层已经不再满足于之前按天汇报经营数据的模式:“比如一个游戏上线新版本,才发布一个小时,老板们就会问到最新的运营数据。”

但那时候的腾讯,数据统计基本都是T+1的,得等到晚上12点自动生成文件,再从业务组、业务部门、事业群一层层向上汇总,再规整到TEG的数据平台部。这种按天的集中式数据传输,占用了不少带宽资源,成本和时效性都成问题。

与此同时,移动互联网逐渐接棒PC互联网,腾讯面临的内部需求和外部趋势,都说明了这一阶段的大数据任务关键词已经变成了“实时”。

因此,在2011-2012年左右,腾讯的大数据从离线计算逐渐切换至实时计算阶段,从Hadoop转向以Spark、Storm为核心进行流式计算,从之前的天、小时、分钟迈进到秒级、毫秒级的时代,开始支持在线分析和实时计算场景。

  • 第三阶段:智能化时代

腾讯的发展之快,很快让业务部门在统计、监控和简单的模型计算之外,又有了新的想法:看数据不仅要“快速”,还得“非常聪明”。

“各个业务对数据的挖掘越来越深入,比如内部的广告、推荐业务,做用户画像、特征分析的需求,已经得不到满足了。”

因此这一阶段的腾讯大数据,主要完成了从数据分析到数据挖掘的转变,也就是「智能化」。

分布式机器学习引擎 Angel 和一站式 AI 开发平台智能钛 TI,都是在这一阶段被自主研发出来,专攻复杂计算场景,可进行大规模的数据训练,支撑内容推荐、广告推荐等 AI 应用场景。

刘煜宏透露,事实上他们并没有刻意设计过每一代的目标和路径,但他们回顾总结后注意到,离线计算、实时计算、机器学习+深度学习,可以看做是腾讯云大数据的三个阶段性特征,而第四代大数据平台,已经在向一体化、智能、安全、云原生的方向演进。

这时,命运的时针正好来到2018年。

从大数据出发:腾讯的内部融合之道


2018这一年,在不同层面上来说,都是腾讯的分水岭。

这一年,第四代大数据平台逐渐成形,新的发展方向已经呈现在大数据团队眼前。

也是在这一年,930变革横空出世,开源协同和自研上云两大战略,吹响推进的号角。一场集腾讯全公司之力的世纪工程就此开始。

开源协同很多时候被描述为代码协同,但其实远不至于此。据腾讯云CTO王慧星回忆,TEG(技术工程事业群)总裁卢山建议,大数据、存储、计算等方面的PaaS服务也应当以统一的公有云形式建设,而非业务团队自行建设和管理。卢山认为,这样的技术能力应该以产品化形式在云上对所有事业群提供服务。

PaaS协同工作里,大数据是非常重要的一个赛道。刘煜宏告诉我们,在推进大数据协同过程中,有十几个相关Oteam(腾讯内部公司级跨团队协同小组)在齐头并进。

这十几个Oteam做的事情,跟腾讯云大数据后来的日子有何关系?

我们都知道,互联网巨头的To B路径通常是这样的:早年间自身业务锤炼,沉淀众多经验,随后对外赋能。

腾讯云大数据确实也是如此,但其特别之处就在于这一步协同工作,对“沉淀”这个步骤意义非凡:散落在腾讯内部的各种大数据相关工作,顺利通过PaaS协同工程而归整起来。

这意味着,大数据团队可以最大程度地“利用”好腾讯自身的条件,穿透式体会到自家业务场景之复杂,需求之艰难,因此积攒下来的解决方案和服务经验,是相当丰富的。

一般企业构建大数据体系时,会遭遇众多问题,例如组件繁多、选型困难,或者自建大数据后运维成本巨大,又或者是有安全方面的考虑——但这些问题,很多已经在Oteam里被集中讨论和解决过了。

换言之,腾讯云大数据对外提供的不少能力,是真正在腾讯内部,被各式各样业务反复“敲打”过的。

究竟Oteam是怎么帮忙,将散落集团各个角落的大数据工作给规整起来的?

例如在集团内部,不同事业群的各个部门都有使用Spark的需求,他们就会各自派出一名代表,组建Oteam。Oteam内部运作类似开源社区,公司内部所有开发同学都可自愿加入,各部门会提出自己需要的特性,汇总在一起,再循序渐进地整合开发。

参与者可主动担任Oteam的leader,但这里的leader不光是字面意义上的领导,更是这一项目的牵头者和兜底者,要负责把集团内部有关Spark的需求全都实现,也要做到竞赛中业内数一数二的水平。

腾讯云大数据基础中心副总经理张昆也告诉我们,公有云上不少成熟的大数据产品,就是开源协同的直接受益者,例如数据治理开发平台WeData,数据集成服务InLong等等。

从大数据身上,我们可以看到腾讯To B产品的一种输出范式:内部较成熟的代码通过Oteam沉淀,或者服务也通过协同工作沉淀下来,做到产品化,内部业务先上线使用,锤炼好产品再给到外部客户。

互联网大厂在服务B端客户时,通常会被问到自家的核心业务是否已经采用相关产品,倘若不能给出肯定的答案,产品的说服力立马就会大打折扣。而新产品让内部业务先试用,这一步在腾讯内部,被称为“吃自己狗粮”。

在“吃狗粮”的过程中,往往会遇到各种各样的bug,有一些甚至对业务的收入和用户体验有影响,但是业务同事在这个过程中,对底层平台给出的不仅有高要求、高标准,也有高度的善意和信任。

刘煜宏回忆道,此前一次项目中,腾讯内部支付要选用腾讯云大数据的数据仓库,但他和团队都心里打鼓:支付这类业务属于金融级,要求之高不言而喻。“坦白讲,当时做了一段时间,压力实在很大,我们都不太敢保证能一定做好。”

但支付的兄弟们却反过来宽慰他们:“没关系,可以用,我们在业务层给你们打配合。”

甚至还有一次,在腾讯云大数据还没有开发出成形产品的时候,支付部门主动拉着刘煜宏不撒手:“Ehome(刘的英文名),你们一定要支持我们这个需求,要多少人手一起开发、需要业务怎么配合,尽管说,我们一起来做到五个九的标准。”

类似这样的,来自业务部门身体力行的支持,不止一次地出现在大数据团队的周围。他感慨,这与腾讯历来的开放、创新文化有关,“做互联网业务出身的,都是久经考验,从一次次不稳定的年代走过来,身经百战之后,也自然对新事物有着更高的包容和更踊跃的尝试。”

在腾讯内部,由此逐渐形成有关大数据的成熟案例和最佳实践。

那么,对于腾讯云大数据而言,究竟什么时候这些经验才适合正式开放,才算是迎来商业化输出的黎明?

数实融合路上的“双向奔赴”


一款产品什么时候会推出市场,喊出那声“Ready——Go”?

腾讯云大数据告诉我们,这些产品正式面世的唯一标准,始终是:在腾讯内部已经投入使用,受过腾讯自身海量业务验证,有过成熟案例或最佳实践。

张昆补充道,有时他们在竞品分析,或者外部签单调研的过程中,会察觉到市场有相关诉求,又或者会收到客户的主动联系和问询,这也会推动他们考虑产品商业化的进度。

值得一提的是,眼下千行百业的数字化转型需求,和对大数据的理解,早已不是从前那样一片荒芜一字不识、还需要从零开始市场教育的阶段了。

不少客户已经有了一定的判断和选型能力,主动选择与优秀的大数据厂商合作。腾讯云大数据也因此与不少行业头部企业形成了一场场“双向奔赴”。

百果园,便是其中的一个典型例子。

“那时候我们也比较主动,直接就选择了腾讯云开展合作。”百果园集团副总裁、负责科技版块的徐永剑回忆道。

而腾讯云大数据在当时,也同步注意到了百果园在数字化转型中,对大数据的场景需求,两家同样诞生于深圳这座城市的企业,一拍即合。

2016年正式推出电商平台的百果园,其实不只是一家连锁生鲜零售企业,在五千多家门店背后,百果园走的是一条“全产业链经营”的道路,即从种植前端一直覆盖到零售终端。

雷峰网 (公众号:雷峰网) 从徐永剑处了解到,百果园为此陆陆续续上线了一百多个系统,完成了初步的信息化覆盖之后,从2018年开始做数字化升级,着重于数据资产的实际应用和价值挖掘。

也是在这一阶段,百果园进入到自己的数据中台综合化改造,腾讯云大数据也在此时正式切入,在经历两三个月的前期调研需求、讨论方案以及任务拆解之后,启动建设百果园的全域数据中心。

一颗果子,从发芽开花,到成熟摘下,一路颠簸登上门店的货架,再踏进万户千家,这当中要历经多少颠沛流离,这个数据中心的“全域”二字就有多少广阔和复杂。

腾讯云架构师杨志伟分析称,将这个全域数据中心的需求进一步拆解、落到实处,可以理解为多业务、多形态、多场景的数据整合,并同时服务差异化较大的各条业务线。

基于此,他们为百果园搭建了一套包含弹性计算MapReduce(EMR)、云数据仓库CDW、数据治理平台WeData和可视化BI(商业智能)在内的体系化解决方案,覆盖了从数据采集、存储、计算、分析、可视化等数据处理全链路解决方案,在经营决策、门店管理、店铺选址和供应链管理4个重点环节,帮助百果园实现了全链路数据化运营与决策。

百果园集团旗下数联科技的技术专家付春告诉我们,“零售企业的特点之一就是规模大,意味着人流量大、交易频繁,这个时候的数据处理能力,要能应对海量和强时效两大要求。EMR和流计算服务Oceanus,可以说是相当锋利的工具,与我们的业务经验相结合后,能减轻我们在数据成本方面的负担。”

这两把“锋利的工具”是怎么解决百果园的问题的?这里做个简单解释:

我们可以把数据看成水果,如果按“批处理”的逻辑做数据的加工分析,就相当于水果装货车被运走,每天一次,今天没赶上就等明天的车。但水果求的就是一个新鲜,数据也一样,EMR和Oceanus的办法,就相当于安排许多载着箱子的骑手,让水果刚摘下来就可以被运走。

EMR还提供了丰富的计算组件,和分钟级集群构建与平行扩展能力,提高业务响应效率,也同时搭建了批、流处理系统,实现批流一体,降低资源投入,这就好比是将骑手们灵活调度,既能迅速接单执行,又能保证没有太多闲置人手。

除此以外,腾讯云大数据基于自身的技术积累,开放了一批高并发、高流量的中间件,帮助百果园在一些全民消费、零售大促的特殊节点,保护系统运行质量、建立个性化营销诉求。

数联科技的研发部总监李俐学透露,目前双方的合作中,EMR和CDW已经全面介入;整个数据底座的第一层已经更换完成,上游的数据资产管理体系和数字化展现体系也逐步切换应用当中。未来,希望借助腾讯云大数据的数据算法能力,向精准营销和经营继续迈进。

雷峰网了解到,在许多企业内部,其数据处理能力仍然很难支持实时查询,一些App会标注称“该统计数据截至某日某时”,这背后就是数据处理能力的缺失。而百果园在采用CDW之后,就能将亿级数据做到实时累计查询、与历史数据同步对比。

在零售电商领域与百果园的合作,只是腾讯云大数据对外输出的冰山一角,其技术触角已经伸向金融、政务、文娱、游戏、教育等多个领域,腾讯内部关于大数据的最佳实践,正源源不断地输送至各行各业。

这个过程也说明了另一个事实:中国的实体经济正在自发地、主动地走向数字化,其转型升级的需求是由内而外地成长出来的,所谓的互联网行业的边界,已经日渐模糊了。

“互联网+”“+互联网”的说辞,已经不再新鲜。互联网如今更倾向于一种渠道,一种实现手段,应该贴着业务而生、朝着企业的核心产品竞争力而行,而不是借着前沿技术的虚名,沦为企业周身一圈虚无的光环。

而腾讯云大数据正是将这套贴着业务而进化的打法,从集团内部延伸到了外部的广阔天地。可以说,大数据与千行百业的联结,某种程度上也让腾讯助力数实融合的路途,有了更具象化的路径。

未来去向:继续相融,再攀高峰


不过,腾讯云大数据的演进之路,还远没有到可以放慢脚步的时候。

腾讯云副总裁黄世飞透露,未来他们会进一步打磨基础产品的性能、稳定性、可靠性、易用性和使用体验等方面,做好共性部分,结合腾讯云的行业know-how,以及合作伙伴生态,共同适配更多行业。

在前不久的腾讯全球生态大会上,腾讯云大数据也推出了智能推荐平台、商业智能两大产品体系,进一步帮助企业释放数据价值,实现业务的增长转型、精细化运营与快速商业决策。

2023年刚刚开始,他们对新一年的工作也已经有了颇为明确的规划,例如全托管方案中的产品联动,一站式产品体验的优化,半托管产品的云原生容器化和共同部署等能力的深化。

同时,云端全托管服务Elasticsesarch Service(ES)的存算分离版本,数据治理开发平台WeData联动其他引擎的一站式解决方案,以及成熟形态的隐私计算方案,都已提上日程。

他们告诉雷峰网,一体化、智能、安全、云原生,是腾讯眼中的下一代大数据核心关键词。

智能和安全,不难理解。前者注意着眼于提升大数据平台的智能化运营支撑水平,后者则是通过隐私计算,保证大数据开源项目之间形成安全的联动,让数据收集、计算过程存储和合作都符合更高的合规要求。

大数据与云原生的拥抱,则体现在了纯容器化和存算分离两个特性上,让大数据更易于部署,通过云计算快速可弹性的计算资源来处理数据;同时,底层存储资源打通,上层计算引擎可以针对客户内部不同业务做针对性计算。

传统的冯诺依曼架构下,计算和存储是紧密耦合的。早期腾讯自身采用的,也是存算一体的架构,这种架构可以实现就近计算,优化数据的亲和性,简单来说计算不必“舍近求远”,性能自然有所提高。

但随着技术发展,存储与计算各自的增长并不会按比例同步增加,这时必然造成资源的浪费,因此存算分离正式面世,计算资源可以弹性伸缩,这种架构的使用也被认为是云原生的特性之一。

眼下,腾讯的大数据最佳实践采用了混合架构,既兼容以往的存算一体、高性能优先的架构,也兼顾存算分离、方便资源扩展的架构。当中会有统一的元数据管控与调度,也会在计算引擎和语法上使用自适应的部署方式,形成整体大数据平台的云原生化。

这是一个有着顶层设计的云原生大数据平台,有自适配的SQL语法,有智能选择计算引擎的自适应计算架构,有统一的数据编排与存储加速并能适配不同的存储引擎。

同时底层的云原生大数据底座统一调度及适配各种底层算力资源,另外还有统一的调度系统和元数据管理系统,以及统一的开放接口,最后还有像自动驾驶系统一样的智能运维系统。

从另一个维度来看,腾讯也同时在进行人工智能(A)、大数据(B)、云计算(C)三者的一体化。

事实上A、B、C三个概念都已提出多时,并各自有着长期发展,如今行业的关注点已经来到了三者的融合应用。外界在关注科技巨头们的最佳技术实践时,也会将目光放在巨头们对A、B、C三者合流的解读和实现上。

腾讯云大数据的发展,在技术实力和组织保障之下,不断攀上更高的山峰。


雷峰网原创文章,未经授权禁止转载。详情见 转载须知 。

随意打赏

提交建议
微信扫一扫,分享给好友吧。