对话翁志:京东大数据如何让技术真正落地
1、
2013年是翁志职业生涯的重要节点。
在那之前,翁志自1996年离开中国、赴国外留学,直到2003年底回国,主要从事数据库方面工作,包括数据基础架构等。较为成功的案例是网络通信数据架构,在90年代互联网刚刚蓬勃兴起的时候,网络公司在整个市场上发挥着引领作用。
随后,伴随着互联网泡沫的增大,数据采集、数据处理能力不断增加,以英特尔为代表的公司也随着摩尔定律的发展而每两年出现飞速倍增的情况。
翁志对雷锋网表示,一个很明显的现象是——数据处理、数据采集能力随着行业步入递增发展阶段。海量数据来源于有线网、无线网、IOT,无处不在,技术爆炸。当然,伴随着数据的增长,数据处理能力也相应飞速发展,对数据的使用也随着给公司带来更多价值。
2013年之前的整整九年,翁志都在 Google 从事管理方面的工作,同时在工作中发现了数据的海量前景与机会,他将目光锁定国内。翁志对雷锋网表示,实际当时花了整整一年时间,考虑了包括BAT、京东、美团等在内的诸多公司,他称,选择工作平台主要考虑两个因素:
-
第一,公司到底是由founder(创始人)还是职业经理人领导,路径与结果是完全不一样的;
-
第二,看平台与行业。
翁志表示,自己非常欣赏亚马逊具备先进性的模式与系统,从而发现电商基因首先要贴近用户、与民众生活休戚相关、联系紧密。这样,它的应用场景便会丰富而多元,深入各个产业,同时又是离钱最近的场景。
2005年,时任 Google CEO 的艾伦施密特认为,未来亚马逊将是谷歌最大的威胁——当大家都去一个网站买东西,搜索就变成为商品或者 shopping place 的搜索,亚马逊自然会分流 Google 很多流量。后来的结果也证实,亚马逊市值已然超过 Google。
视野回到国内,京东便属于既符合翁志选择标准、又在场景与所处行业和模式上类似亚马逊的平台。“京东是离用户最近的公司,作为电商平台拥有丰富的客户数据,同时对商家有深刻的理解。”
2、
2013年之后,翁志以技术顾问的身份加入京东,专注于大数据、计算机视觉及大型分布式系统的研究和开发工作,主要从事技术方面而非从前管理领域的工作,从整个软件架构角度切入为主。他对雷锋网表示,正式因为之前的行业积淀,使他看到海量数据能够为公司提供更大价值,这个前景具备广阔的增长与上升空间。
自2013年至今,五年时间过去了,翁志对雷锋网表示,京东在大数据技术领域的提升历历在目,不论是软件构思还是系统管理、以及对架构的理解等,都与过去不在一个层次上,这也是让他颇为欣慰的地方,包括整体数据安全、系统架构等力度都有了很大进步。
随后,团队基于开源软件进行深度定制,开发出更适合京东平台的产品。“过去我们利用开源软件,现在我们开始反馈给开源世界,同时加入自己的思考进行提升。”翁志表示,“从这个角度来说,京东的技术层次的确是有一个很大的发展。从人员规模、技术实力集聚方面、真正的成果也能够体现出来,更被业界所接受。”
-
一方面,京东具备顶尖BAT人才,同时不断聚集人才,在技术方面锐意进取;
-
另外,京东在部分技术领域已然走到前面了。
原因方面,翁志对雷锋网解释称,主要来自两方面:一是理念,过去几年京东对人才的汲取是非常“疯狂”的,此前雷锋网曾多次报道——
-
去年9月,原 IBM Watson Group 首席科学家周伯文博士正式入职京东,出任京东集团副总裁,负责 AI 研究与平台部相关业务,向董事局主席兼首席执行官刘强东汇报;
-
今年1月,全球顶级大数据 AI 科学家裴健博士入职京东,任京东集团副总裁,向京东集团董事局主席兼首席执行官刘强东汇报;
-
2月,京东金融正式宣布任命郑宇为京东金融副总裁、首席数据科学家,担任城市计算事业部总经理及城市计算研究院院长;
-
3月,前美国微软雷德蒙德研究院主任研究员(Principal Researcher)及深度学习技术中心(DLTC)负责人何晓冬博士于今日正式加入京东,出任京东集团 AI 平台与研究部 AI 研究院常务副院长,并担任深度学习及语音和语言实验室主任,向 AI 平台与研究部负责人、京东集团副总裁周伯文博士汇报。
其次,京东给予足够发挥能量的空间。以翁志自身为例,他对雷锋网表示,京东虽然是一家民企,具备企业文化的自身特色,但它对外来人员、技术人员的包容心还是比较强的,也同时如何提供施展能力的空间、资源、场景。当然,翁志对于刚从海外文化转型国内民企的艰难也并不讳言,他称当时肯定会需要一段适应不同环境的过程,不适应只能离开是肯定的,所幸翁志个人是一位较为容易接受新鲜事物的性格,而京东在他看来也是一个相对较为容易相处的民企。
据雷锋网了解,迄今为止,翁志拥有国内外专利10余项,在大数据技术、深度学习、人脸识别、图像搜索等领域取得了突出的成绩,并结合AI技术将线上场景线下化, 实现京东首家无人智能店铺,应用了图像识别、视频分析等技术,共输出技术专利27项。主持并实现大数据高速查询引擎系统JD-Presto项目并荣获国际开源软件项目“优秀技术奖”。
3、
在具体案例上,翁志表示,团队最开始做图像识别、计算视觉技术,也是过去五年中发展非常迅猛的人工智能方向。例如么么照APP——一款以人像抠图为核心的app产品,采用深度学习算法对照片与视频进行语义分割,可精准分割出人像与背景,并支持全身特效的合成,运用了领先的AI及AR技术,实现高精度的全自动抠图效果,能够满足于用户晒图、社交、海报制作等应用场景,覆盖邀请函、电子名片、实时直播等动态视频的应用。给用户带来更丰富有趣的玩法及全新的沉浸式互动体验。
另有智能搭配大屏 Mirror+ ,以国内外大量的时尚搭配数据作为输入进行模型训练,同时结合京东平台上的海量用户消费行为数据,将个性化与时尚感充分结合。该产品专门针对线下服装店场景所设计,用户拿起衣服后屏幕上即可显示商品的相关信息,并通过算法推荐搭配组合,用户可点击搭配详情查看,作为日后搭配方案,购买方面可选择呼叫导购线下购买,也可以线上购买。商家还可根据个性化的需求进行本品牌或跨品牌的搭配推荐,进一步提升店铺的试衣成功率,达到更高的转化率和连带率。
其次,京东到家 Go 智能货柜以人工智能、大数据、生物识别、物联网等核心技术为基础,通过人脸识别技术、智能感应系统、电子价签等,可以精准完成商品与顾客、商品与货架之间的匹配,实现用户开门取货、即拿即走的无感知购物场景;帮助商家智能化管理商品,使补货、陈列、价格、促销、推送实现自动化与智能化。
可以看出,不管是在时尚科技还是零售科技方面,京东大数据都发挥着愈发重要的作用,在整个发展过程中,京东大数据与翁志团队都经历哪些关键节点呢?
翁志对雷锋网 (公众号:雷锋网) 表示,从技术层面讲,主要体现在观念慢慢融入的过程,且根植于过去五年的整体发展。例如虚拟化的采用,计算弹性化,对资源利用率的愈发提高等,都是些关键节点。“京东数据平台的统一使得将大数据集中化,利于整体发展。同时基于数据处理压力,团队内部时效性也有所提升,进行数据压缩、数据备份、数据处理(包括计算与存储分离)等,都使得整体能力得到大幅提升。”翁志称,两年前团队需要花费三个半小时才能完成的核心任务,如今仅需一个小时就能跑完。
此外,硬件采用能力、软件改造能力等的集合,也使得如今数据整体处理能力相交三年前提高十倍以上。
“我们整个软件大数据平台的架构体系的变化不是说从0变成1,更多体在不同的点——这些关键点的提升使整个大数据平台处理能力有了很大的提升,这是我们更着重的。”
目前,翁志称,随着数据越发被推向网络,用户数据逐渐流动起来,愈发可以发挥更大价值。足够高效地发现空闲服务器、空闲资源节点,并将数据引导这些节点中进行计算,便可以使数据得到高效分配,同时充分利用网络带宽,如此这般既打破服务器瓶颈,又充分使硬件与网络速度得到提升。
正如上文所述,京东大数据团队正处于努力让京东内部认可的阶段,翁志表示,每年618与双十一,京东平台数据处理量都会达到顶尖,具体表现在:
-
1、首先因为数据海量要共享一定的某个结构和资源,数据处理有差不多1小时的延迟,处理时间比平常要慢,因为数据量大了很多,甚至大了10倍以上。但目前,由于京东大数据技术的提升,可以在满足前端应用条件下,马上或者在几分钟时间内计算得出;
-
2、整个处理时间比以前缩短了很多,甚至比平常更及时地将促销报告提供给京东管理层、决策层,这对于整个决策层进行合理的促销带来良性的带动效果;
翁志表示,从以上两点可以看出,京东大数据能力的确是在提升,过去京东大数据技术与具体业务之间的关系可能是业务托着技术,现在则完全可以做到技术托着业务。
4、
京东大数据平台到底是如何规划的?
翁志称,主要是基于用户需求出发,进行有效合理统一的规划,比如:
-
底层存储硬件如何使用硬盘、SSD、NvMe SSD、Optane,甚至未来的AEP进行有机的组合,将成本与效能进行合理的搭配;
-
硬件上的软件存储层由HDFS与有限的scalable分布式文件系统组成,可以支持不同类型的数据存储,对于冷数据通过有序的搬迁和擦除,对其数据存取,根据用户的不同需求API化。降低使用过程中不必要的复杂度;
-
同时,利用深度学习将数万台服务器 IO 使用及数据分布进行有效分析,通过增强学习的方式指引调度器控制数据的分布和使用等。
京东集团副总裁、大数据与智慧供应链事业部总裁裴健表示,“现在京东大数据平台上拥有超过4万台服务器,每天处理超过100万任务,数据总量超过450个PB,而且以每天800多个TB的规模增长。这些强大的数据、数据处理内容,帮助我们在丰富的场景下实现了诸多相关的智能应用。”
雷锋网了解到,目前作为京东新零售核心支撑的供应链体系,背后支撑则来自于京东海量大数据。目前,京东大数据平台数据资源囊括交易、物流、舆情、政策等数据。“在京东平台上可观察到用户全链路购买行为,商品物流信息以及上游生产商、供应商、品牌商的供应链渠道等信息。”
京东大数据与各厂商之间的合作,也均体现了京东数据公开共享、赋能供应链上下游的理念,更典型的合作案例表现在每年京东618期间。
据雷锋网了解,今年618期间,京东与可口可乐展开世界杯期间的定制化合作,包括FIFA礼盒与独家手环等;此外,百威与京东也达成合作,围绕口感、新鲜度等属性进行产品创新。百威英博的相关负责人介绍,消费者在京东平台对百威英博的评价、偏好、建议等,形成了丰富的大数据和用酒人群画像,有助于百威有针对性地进行产品创新,开发出更符合消费者需求的好产品。
翁志对雷锋网称,随着京东大数据能力的不断提升,每年的618与双11在团队看来已然不再是技术上的重大挑战,与过去相比,心态不同了,准备也不同了。“内部更多将其看做一个很平常的事情,非常有信心能够平稳度过。”翁志称,“当然,也并非是将每年618都不再有挑战了,只是比过去更具备坚定的信心。”
。