解密阿里 AI 战略:从日常的应用场景而来,智能音箱呼之欲出
2016 年 4 月 9 日 0 点 04 分,《我是歌手》第四季总决赛在湖南卫视落下帷幕,赛前被广泛看好的 CoCo 李玟夺得了总冠军。但当天,我们在记住了李玟的歌声以外,还被另一个意外出现的事件所吸引,那就是阿里云小 Ai。
虽然在赛前它们给出的预测结果宣称韩国歌手黄致列将会夺冠,这与最后的结果并不相符;但随着比赛的激烈进行,各种数据和信息都在发生着变化,在第一轮淘汰之后的几次预测中,阿里云小 Ai 都表现出了比较精准的结果,并且在最终的三选一中成功预测到了李玟的夺冠。
4 个月之后,在 8 月的阿里巴巴云栖大会上,这个一战成名的人工智能程序也进行了改版升级,变身成了「阿里云 ET」。
但相比于竞争对手百度在人工智能领域的频频发声,阿里云 ET 虽然登上了《我是歌手》的舞台,并且还在双十一晚会上变了魔术,不过在外界看来,百度仍然是中国人工智能领域的领头羊。外媒 Fast Company 就在去年年底将百度排在最具创新的 AI 和机器学习企业榜单第三位,仅次于 Google 和 IBM,也是唯一入选此榜单的中国企业。
但事实真的是如此吗?在阿里巴巴看来,人工智能技术在它们的未来战略中究竟处于何种位置?阿里的人工智能研究重点到底在哪边?
近日,极客公园带着这些问题拜访了阿里云 ET 的相关研究人员,我们将会带着大家一起来看看人工智能这个备受瞩目的技术领域在这家中国互联网巨头中的存在形态。
时机到了就回来
2008 年,已经在微软亚洲研究院担任常务副院长的王坚博士回到了杭州,加入了阿里巴巴集团,其时,阿里云还未成立。一年之后,阿里云正式成立,王坚成为其掌舵者。这时,面对新的局面,他也需要帮手,于是他找来了自己之前在微软的同事初敏。
加入阿里之前,初敏在微软亚洲研究院工作了近 10 年,创建并领导了其中的语音合成研究小组,她自己也是智能语音领域的专家。现在,她负责领导阿里云在智能语音方面的工作。
事实上,虽然「人工智能」这个技术领域目前主要被放在阿里云的体系下,但在几年以前,阿里内部已经在各个业务线上开始了初步的试探。 「阿里(的人工智能部分)实际上到云上去的时间开始得挺晚的,我们从 2014 年下半年才开始搞的」 ,初敏说道,在此之前,她已经零零星星在阿里内部的翻译、输入法以及电商方面做了好几年的工作。
(阿里云 iDST 技术总监、阿里云语音团队负责人初敏)
与百度相比,阿里大规模进入人工智能领域的动作还是晚了不少。早在 2013 年年初,百度就成立了百度深度学习研究院(Institute of Deep Learning,IDL),并在三个月之后在硅谷成立了硅谷人工智能实验室。
在当时,「人工智能」这个概念在业界方兴未艾,大公司中,除了百度,还很少有公司能这么早就进行系统性的布局。但就像初敏所说的:「在这个行业里,其实什么人工智能热不热跟我们没有关系,对技术人来讲是持续的、一直都在做的。外面的热是舆论上面的」,在背后,不管是阿里还是其他人,技术的积累和发展一直都在默默地发生。
很快,随着业界对人工智能领域在未来的不断看好,很多人的都意识到,就这项技术来说,如果你失去了这块领地,那你也将失去未来。所以,大约从 14 年开始,阿里陆陆续续找来了不少人工智能领域的世界级专家,开始系统性布局人工智能领域。
作为世界级的数据科学家,闵万里在 2013 年 9 月通过猎头的渠道回国加入了阿里,目前他是阿里云大数据孵化器团队的负责人。在谈到回国的原因时,他表示主要是因为 「发现阿里这边数据非常大,而且数据种类也很丰富,比亚马逊+eBay+PayPal 还多」 。
有相似经历还有视觉团队的华先胜博士。自 2001 年从北京大学毕业之后,华先胜就一直在微软工作,一待就是 14 年。2015 年年初,因为阿里的邀请,华先胜从西雅图回到了国内,加入了阿里巴巴。目前他则是阿里云视觉计算团队的负责人。
(阿里云视觉计算团队的负责人华先胜)
从 13 年开始,阿里巴巴陆续从世界各大顶尖团队挖来了多位世界级人工智能专家,美国密歇根州立大学终身教授金榕,麻省理工学院博士、普渡大学终身教授漆远都是在那段时间从美归来,加入了阿里。而就在本周,阿里再次抛出了一个重磅消息: 亚马逊公司资深主任科学家任小枫正式加盟阿里巴巴,担任人工智能核心团队 iDST 的副院长和首席科学家。
这一切都显示,阿里已经成为了人工智能的人才争夺战中一支重要的力量。
一切从场景中长出来
事实上,在 13 年之前,「人工智能」作为一个学术名词还停留在很多学术机构和大公司的实验室中,工业界还远未像今天这般重视这个技术领域,不过阿里在自己的专业领域——电商部门——已经初步有了一些智能化的雏形。
「你知道有的卖家的商品图片都是像牛皮癣一样,上来贴满了狗皮膏药,这种就不好了。怎么识别呢?其实就是人工智能的方法去识别,只是在三年前大家没有那么强调人工智能,实际上我们已经在做了。所以我们当时做了一些图片精美度的模型来看这个图片是否优美、是否违规,然后再基于这些判断这个商品是不是一个精品」,闵万里说道。
(阿里云大数据孵化器团队的负责人闵万里)
闵万里现在是阿里云大数据孵化器团队的负责人,回国之前,他先后在 IBM Watson 研究所和 Google 从事人工智能方面的研究工作。在他看来,阿里的人工智能是「从场景当中长出来的」,而这可能也是他们和其他公司的区别之一。
而在智能语音团队的初敏看来,阿里作为一家以电商立足的公司,「接地气」是阿里做人工智能最大的特点。在这里, 「接地气」的意思就是「从下面的基础业务部门开始推动」 。
「一开始是业务部门感受到了这个趋势,然后小的业务部门就开始说我需要这个技术。可能最开始是从外面采购,后来才慢慢发现这个不对,这么重要的技术是应该我们自己要做的,然后就开始自己做。」
他们二者的观点似乎是相同的,即阿里的人工智能都是从日常的应用场景而来,通过解决一个个技术难题慢慢走到了今天。
视觉团队的华先胜也赞同这个观点,作为图像搜索领域的世界级专家,他觉得图像搜索技术最合适的场景就是电商。
「我能想象到最好的场景就是电商。我认为拍照购物这个场景是很有道理的,因为我经常看到一些东西,可能我不好描述。比如我很喜欢你这个背心,那我怎么描述它,这个不好描述,但是我拍张照片就好了。」
为此,华先胜离开了微软来到了全世界最大的电商平台阿里巴巴,并且在一开始并没有加入阿里云团队,而是进入了电商团队的搜索事业部。在那里,他主要负责的项目就是淘宝 App 中的「拍立淘」功能。
(手机淘宝中的拍立淘)
「拍立淘」可以让用户通过拍照的方式实现「以图搜图」,以此来解决用户在不知道商品名称的情况下购买的问题。在此之前,淘宝其实已经有这个产品了,但是离用户的期望还差得很远。而华先胜通过一年多的工作让这项功能有了很大的提高,2015 年双十一当日,拍立淘的使用量超过千万。
上云
在搜索部门做了一年多之后,华先胜离开了那里,加入了阿里云。当时,云计算刚刚兴起不久,需求量逐步增加,「当时也是看到这个需求,我就过来了,其实后面的需求远远超过我所看到的。」
与他相似的还有闵万里,这位在刚刚进入阿里时也加入了电商部门做数据挖掘的科学家同样在不久之后转入了阿里云的体系。所有的一切都显示:
阿里巴巴这家公司的人工智能技术被放到了阿里云的体系下去做。
事实上,作为国内最大的竞争对手,百度一直将人工智能作为自己未来最重要的核心战略,在 2013 年成立了北京和硅谷人工智能实验室之后,还早早从斯坦福大学挖来了世界级科学家吴恩达担任首席科学家。
相比之下,人工智能「仅仅」作为阿里云体系下的一个分支领域,似乎在阿里巴巴内部不够受到重视,真的是这样吗?
在初敏看来,随着 PC 被大量的移动设备代替以后,移动设备上面语音就是最好的入口,因为所有的输入方法里面只有语音是最简单的。但在这背后,其实所有的事都发生在云上。
而这「背后的事」主要有两方面: 强大的计算能力以及广泛的应用场景 。
- 首先,人工智能的基础就是算法和数据,如果没有足够强大的计算能力,计算机没有办法变聪明,而这恰恰是阿里云的长处。从 2008 年开始,阿里云在王坚博士的带领下开发了强大的飞天系统,这套系统目前有 100 万个 CPU 的核,有 60 万块硬盘,相当于一个 EB 的存储能力。
- 第二点,作为属于未来的底层基本技术,人工智能的应用场景一定不仅限于电商领域,而这就需要阿里云发挥作用了。「因为阿里云服务的就是外面很多行业,所以从这点来讲,你看到行业的诉求和痛点的时候,你就有可能绽放出一个好的解决方案,把人工智能技术用起来,发现了成功案例就去宣传。」
目前,阿里云在自己的平台上开放了多个相关的 API,比如人脸识别、智能语音交互等等。外部的创业公司可以通过使用阿里云的服务免去自己开发的相关步骤,而他们在使用过程中产生的数据经过回流还可以让阿里云 ET 变得更聪明,「这其实是个双赢的事情。」
将人工智能与「云」结合起来的战略还体现在云 OS 操作系统上。目前,据初敏透露,阿里云智能语音团队很大的一块工作就是跟云 OS 进行深度合作,因为「云 OS 的操作系统是支持多端的,这里面云能力也是需要多端的,而且应该是多端打通的」。
不过,在采访中,阿里云的相关工作人员也表示「人工智能」在阿里内部的地位未来还会再提高。虽然截至本文发表当天还没有确切的相关消息,但就在今年年初的阿里巴巴集团首届技术大会上,马云宣布将建立阿里巴巴的『NASA』,「面向机器学习、芯片、IoT、操作系统、生物识别这些核心技术组建崭新的团队,建立新的机制和方法。」
但无论未来人工智能被阿里提到哪一个层级,阿里云都会是其中重要的一环。
要做平台
「苹果会说自己在人工智能行业是『second to none』,你们会怎么评价自己?」
「其实从技术上来讲,各家都有特色,或者说侧重点不一样。但是从人工智能在业务领域、垂直行业的创新上来说,我觉得阿里巴巴现在应该走在全球的最前面。」阿里云大数据孵化器团队的负责人闵万里说道。
因为自己带领的既是一个技术团队,同时还是一个业务落地的团队,所以闵万里需要承担商业方面的 KPI 指标,但这也让他和阿里云人工智能的落地情况有了更深的了解。他同时认为,阿里和其他公司在人工智能方面的最大差别就是「对技术和业务场景的深刻理解和抽象提炼」,但这并不表示阿里需要把所有的场景都自己做掉。
(杭州城市大脑项目正式发布的现场)
「我们要在某些垂直行业当中找到 1 到 2 个创新的案例,我们要证明这些能力加上正确的方法,能够在这个行业产生价值,后面才会有更多的公司愿意跟着我们一起在这个行业当中深挖,把另外的一些痛点给解了,这样我们就把这个生态给做起来了。」
承接各个场景,这种对业务领域的广泛布局成为了阿里的优势,也自然而然变成了他们未来的长远目标。
「建立云上视觉计算的生态」——这是华先胜心目中的长远目标。在他看来,广义的 AI 也可以平台化、生态化,这样「大家都可以在 AI 的平台上去做研发、部署和生产」。
(阿里云官网上发布的部分 API 服务)
这听起来很符合阿里的气质和地位。在和几位高级研究人员的对话中,他们都或多或少表露了类似的意见和想法。闵万里也认为,将来的趋势一定是一个「多链路、多种功能的结合」,一定是「多种技术结合成一个完整的解决方案去解客户的问题」。
因此,「那些有特色的小而美的公司会成为这个生态当中非常重要的补充,或者是应该成为这个平台上的一个很好的玩家。」
「我们会去做底层的平台性的东西,然后他们在上面做各个方向的垂直。所以这些人我们认为都是我们的生态伙伴」,初敏也这样认为。
最后,要找到技术的正确传递方式
一切的问题似乎都变成了「寻找正确的产品形态」。
当我们坐在阿里云的办公室里时,初敏为我们展示了支付宝中的语音入口,「帮我给 XX 转 20 块钱」,屏幕上出现了通讯录中的那位联系人的名字,确认之后,不用点击,20 块钱就转了过去。
(支付宝语音助手的界面)
这个过程看上去还不错,而淘宝和天猫这些阿里系的 App 中的语音入口也大同小异。初敏把这种交互方式称为「意图的分发」,目的就是在复杂的多层任务中直接传达意图,只是「产品形态还没有跟上」。
当然,谁也不知道最终的产品形态会是怎样。仅拿语音来说,初敏认为 Amazon Echo 的例子很成功,但不一定是最后的答案,「我是认为只要有一个总的入口就好了,这个东西来控制所有其他的东西」,初敏说道,「这个东西也许是手机,也许是家里的音箱,或者也许就是你那个 Wi-Fi,因为每家都有一个 Wi-Fi 入口,也可能是你厨房里那个冰箱,具体是什么我觉得不好说。」
而华先胜则认为算法、数据、用户、平台、商业模式这 5 个要素是他心目中一个成功的人工智能商业应用的必备要素。
在他看来,顶尖团队在算法上的差别会越来越小,大家比拼的是综合的资源,你既要有算法和数据,还需要训练数据的能力,并且还需要通过正确的商业模式触达到足够多的用户,以此才能真正成为一个成功的人工智能商业应用。
闵万里也觉得这是一个相辅相成的事情,你既要有技术,还需要对业务场景有足够的了解。 「应该这样讲,我们的人工智能技术不是为了技术而技术,我们一定是一个全站式的解决方案,我们的技术上来之后就能解决客户问题。」
而在这方面,阿里在 iDST 团队之外还有一个「杀手锏」,那就是略显神秘的「阿里巴巴人工智能实验室」。
6 月 28 日,一位阿里巴巴内部人士向媒体确认,「阿里巴巴人工智能实验室」将于近期进行首次公开亮相,该机构负责阿里巴巴集团旗下消费级 AI 产品的研发,成立于 2016 年,在阿里内部颇为低调。 「这个实验室的定位是主要做人工智能消费级产品,与 iDST 有明显的分工。」 该人士对媒体表示。
在阿里官方表述和定位中,该实验室成立的愿景是「希望改变人与世界的连接方式」。上述人士向记者确认,阿里人工智能实验室很快将推出一款人工智能消费级产品。而从今年各大公司的表现看,智能音箱显然是一个最有可能的选择。
在今年上半年,亚马逊公司在 Echo 的基础上又推出了 Echo Show,苹果公司则发布了 Homepod;国内的联想、喜马拉雅等大大小小的互联网科技公司都在智能音箱这个产品上做文章,相继推出了相关产品。
而据《界面》介绍,近日阿里巴巴一篇名为《一种新的语义编码模型及其在智能问答及分类中的应用》的论文被全球顶级数据挖掘专家发表各自领域研究成果的盛会 KDD (ACM SIGKDD Conference on Knowledge Discovery and Data Mining,简称 KDD)收录,这篇论文的主要内容聚焦在自然语言处理和智能问答,这是目前火热的语音助手及智能音箱行业的基础性技术。
在本文即将发表时,极客公园收到了来自于阿里人工智能实验室 7 月 5 日的新品发布邀请函,根据邀请函上「未来 开口即来」的主题口号和声波一样的图案,我们推测应该应该就是发布智能音箱了。当然,具体的答案将在 7 月 5 日揭晓,极客公园也将保持关注。
结语
2016 年 8 月 9 日,在阿里云云栖大会·北京峰会上,阿里云总裁胡晓明说:「也许在 20 年后,管理阿里巴巴的,将是一位商业领袖 ET!」
「这样的场景真会出现吗?我们又该怎么样定义阿里?它会是一家云计算公司,还是电商公司,还是人工智能公司?」我把这个问题抛给了闵万里。
「我觉得可能到后面,云计算和电商都不需要再谈了,因为它已经深入人心,无处不在了。但是『人工智能』这个词会热很久,热很久有好有坏,一方面它还一直不断地在完善当中,另外一方面它能够持续保持关注度,成为社会大家的一个共识,就像今天我们讲互联网,没有人去挑战。所以说,那个愿景我觉得是有可能实现的,但是不是百分之百靠 ET 就是另外一回事了,」保持着他一贯的微笑,闵万里回答道。