永辉云计算联合创始人兼CTO胡鲁辉:从微软智能大数据到智慧零售,我的大数据与人工智能融合实践
雷锋网按:2018 全球人工智能与机器人峰会(CCF-GAIR)在深圳召开,峰会由中国计算机学会(CCF)主办,雷锋网、香港中文大学(深圳)承办。
本次大会共吸引超过2500余位 AI 业界人士参会,其中包含来自全球的 140 位在人工智能领域享有盛誉的演讲与圆桌嘉宾。
大会第三天的【AI+专场】中,美国德州农工大学数据挖掘实验室主任胡侠,永辉云计算联合创始人兼CTO、前华为美研首席架构师兼CTO胡鲁辉,乂学教育首席科学家崔炜,中兴力维首席技术官曹友盛等重磅嘉宾先后发表精彩演讲,分享AI在各自领域的落地实践经验。
其中永辉云计算联合创始人兼CTO胡鲁辉作为第二位出场的嘉宾,发表了题为《机器学习融合大数据》的主题演讲。
胡鲁辉老师在演讲中指出,这一次人工智能浪潮的兴起与大数据密切相关。过去大家觉得大数据很火但价值不大,是因为没有形成闭环。他认为,未来大数据会朝着实时智能数据的方向发展。所谓实时智能数据应当从用户的角度从发,包含实时批流计算、随时可得、数据智能化、实时决策和安全共享五大特点。
胡鲁辉老师还特别强调,未来应该加强数据安全共享,因为数据虽然重要,但它不是黄金,如果现在不用、不分享就会不断贬值。
随后,他从微软大数据平台和永辉云计算两个案例从发,分享了自己在促进机器学习与大数据融合方面的实践经验。
以下是胡鲁辉老师的全部演讲内容,雷锋网 (公众号:雷锋网) 做了不改变原意的整理与编辑:
大家下午好!刚才胡侠教授从学术角度做了精彩的分享。我来自工业界,所以跟大家分享一下人工智能在工业界的应用。今天的分享主要包括两个方面:一是机器学习和大数据怎么融合,二是融合之后怎么应用到工业中。我会列举两个例子:一个是微软的场景,另一个是智慧零售的场景。
首先回顾一下科技的发展历程。过去几十年,基本每十年就会有一个大的技术突变。85年微软发布第一个操作系统Windows开启了PC时代,94、95年Amazon.com、Yahoo先后发布,宣告进入互联网时代;07年苹果手机发布,又开启了移动时代,直到2015年人工智能时代开启。这些突变的价值一次比一次大,基本每一次突变的价值都是上一次的10倍。人工智能有些例外,它的价值是上一次技术突变的2倍左右。
今天人工智能概念非常火热,也已经在一些领域落地应用了,但规模不大,所以大家可能感受不到它的巨大价值。但大家不妨回想下98年的互联网是什么样的,当时的互联网和今天的人工智能很像——虽然很热,但规模不大。所以大家要对未来充满信心。
人工智能在朝两个方向发展:一是学术研究,包括TensorFlow、Torch等很多工具和平台;二是行业应用,包含IaaS和AI Edge两个方面,IaaS即Intelligence as a Service,AI Edge则拥有很多应用场景。学术研究和工业应用中间是Cloud AI,通过云化或平台化的方式来提升人工智能的能力。
这一次人工智能浪潮的兴起和大数据密不可分,没有大数据,这一次人工智能浪潮就不会到来。例如Fraud Detection、Content Recommendation、Cognitive Assistance等的应用都和大数据密切相关。
大数据的演变经历了Batch Processing、Stream Processing两个阶段,其中Batch Processing主要应用在报表上,Stream Processing则主要应用于报警。
大家或许会有这样一种感觉——大数据很火,但价值却不大。这是为什么呢?因为在许多场景中,它还没有形成闭环。只有让它成为业务的关键,才能体现更大的价值。
大数据未来会如何发展呢?我认为大数据的下一个阶段是实时智能数据(Real-time Intelligent Data),不是以技术角度定义大数据,而是从用户体验的角度来定义。具体包含五个方面:
1.实时批流计算。所谓实时不是从数据或技术层面,而是从用户的角度来定义,即用户什么时候想用,数据就能产生结果。
2.数据结果随时可得。如果数据量很大,如何也能快速得到结果?
3.数据和智能完全融合。
4.如何让数据做到闭环,也就是实时决策。
5.数据安全共享,这一点非常重要。我在国内发现一个很有意思的现象:大家都认为数据很重要,所以握在手里不分享。数据确实很重要,但它不是黄金,如果现在不用、不分享就会不断快速贬值,因为每年产生的数据无论量还是丰富性都在快速增长。
下面列举两个机器学习和大数据融合的案例。
微软智能大数据
下图展示了微软的实时大数据平台。在这个平台上我们主要实现了两点功能:一是可配置,即在数据采集、展示、存储、计算方面都是可配置的;二是实时性。这里的“实时”指的不是流处理,关键的是实时搜索能力。站在用户的角度,如果你需要什么结果,搜索是更好的方法。
我们在这个大数据平台里结合了许多人工智能的算法。我们知道,微软有很多的产品和服务,那么如何维护它们呢?微软有System Center,下面的图表列举了微软所有的产品部门。
微软的产品出了问题怎么办?微软常常用Knowledge Base来解决。这对微软来说是很大的市场,规模每年差不多有50亿美元。而且这件事相当复杂,Knowledge Base有20万个。我们利用人工智能,根据用户信息,有效地把解决方案和问题自动联系起来了,这是一件非常了不起的事情。
微软的产品、服务器、企业服务软件都会产生很多的机器数据,另外也有一些人为配置数据。根据这些机器数据和配置数据,把问题和解决方案自动联系起来,这就是我们做到的事情。
我们具体是怎么做的呢?我们把大数据平台和客户数据中心(服务和设备都在客户数据中心)通过混合云的方式链接起来,然后在平台上运用人工智能的方法。
前面提到,微软有20万个Knowledge Base,这个东西是文档,处理起来有很大的挑战。我们是如何把这些文档或解决方案的文字转化成对应特定场景的问题,一步步解析出来,帮助用户解决问题的呢?
我们主要做了两步工作:第一步是做线下NLP的Index,将20万个Knowledge Base进行分类处理,放在大数据平台;第二步是数据采集和实时分析,这一步的算法和第一步差不多,也应用了类似的NLP技术。但二者针对的数据不同,第一步处理的Knowledge Base是文档式的;第二步处理的是客户数据,是另一方面的数据。我们用类似的NLP算法处理实时数据,产生一个fingerprint,然后把这个fingerprint与index里的Knowledge Base进行匹配。
比如,机器出现问题时会产生一堆logging,这些logging可以反映出某种特定的场景。于是我们根据这些logging生成一个fingerprint,再到Knowledge Base的index平台搜索匹配。有时候我们会搜索出很多个结果,这时候就需要特定的ranking来优化。
这件事看似简单,其实蕴含着很多挑战,下图列举了四个方面。比如对KB articles的NLP:微软的产品相当之多,有Windows Server, Exchange Server等至少七八种Servers,每个Server都相当复杂,处理起来比较困难。
智慧零售与大数据融合
再跟大家分享一个大数据和人工智能融合应用于零售领域的案例。
随着消费升级、消费者行为变化,零售行业已经发生了巨变。早期60、70后是消费主力,现在消费主力渐渐成了80、90后。
如果说传统零售是零售的1.0模式,那么新兴大卖场和互联网电商就分别是2.0和3.0模式。1.0模式以货为中心,只要有好的货就能卖得很好;2.0和3.0模式没有本质区别,主要是靠渠道和流量,只要有流量就能卖得很好。现在我们进入了零售4.0模式,也就是以人为本、以服务为中心的零售模式。
这个模式有很大的不同,因为消费者更加追求个性化、社交化、口碑化,更加在乎服务品质,不再是什么便宜买什么。
过去线上有电商,线下有门店,如果把线上、线下融合起来,就能给消费者带来更大的便利。比如我去一家门店买东西,我想买很多东西,又嫌东西太重不想拿,怎么办?现在只要在APP上下单,门店就可以把商品配送到家,这就是典型的线上、线下融合。
过去电商解决了信息不对称的问题,但用户体验商品还是比较困难。假如我有一个体验店,消费者可以先到体验店试用,再到线上下单购买,就解决了这个问题。这些是线上、线下融合的例子。
不管怎么说,零售行业应该回归到了本质——以人为本。如何做好服务、让消费者满意成为了零售行业的重点。
再来看一下永辉云计算是怎么做的。
永辉云计算是在永辉和腾讯平台上搭建的面向零售的智慧云。它的使命是运用云计算、大数据和人工智能赋能零售行业,以人为本,以服务为中心,让消费者更满意。
门店和电商在很多方面有着本质区别。首先,对电商来说数据是天生的,采集也比较容易。但对门店和超市来说,数据虽然很多,但形式各不相同,如何全面数据化是一个巨大的挑战。
不过凡事都有两面性,线上数据采集虽然容易,但数据的真实性不一定可靠。比如你帮朋友买东西,虽然是你下的单,但你朋友才是最后使用商品的人。门店的数据则相对真实,人工智能可以精准识别到你的行为。
大数据和人工智能在零售行业有很多的应用场景。
比如,合伙制是零售行业一种比较创新,也比较能激发员工动力的管理方法。如果能够有效利用大数据,通过信息联通、透明化,进行智能化的管理,将比人工管理更加有效。
另外,大数据可以加深对用户的理解,实现更加精准化的营销。我们经常把商品简单理解成SKU,但其实并没有这么简单,它还涉及很多东西,比如商品从何而来、怎么库存和哪些因素相关。这是一个生命周期的管理,过程中的数据非常富有挑战,而且意义重大。
物流也是大数据和人工智能非常好的应用场景,它的数据化也比较重要。
还有前端的线上、线下融合。消费者进店的时候手里还有一个端口,比如小程序、APP。如何把这个端口有效的数据化,也是我们正在探索的。
数据化之后,下一步是数据智能,把数据和人工智能融合起来,让比较复杂的场景可预测。
最后一步是智慧赋能,即通过数据和智能的融合,赋能真实的应用场景。比如智慧选址,假如你要开一千家店,选址是一个非常庞大的工作量,用大数据和人工智能选址,既有效又能节省成本。再比如,以前需要在POS机上刷卡支付,现在通过刷脸就能支付,登记一下就可以拿着东西走人。诸如此类,很多场景都可以将数据化和人工智能有效结合起来。
我今天的分享就到这里,谢谢大家。
。