现场:阿里三场技术研讨会“Show Muscle”,展示人工智能应用创新
如果要历数2017年在各大人工智能顶级学术会议上的国内企业,阿里巴巴必然是最活跃的公司之一。雷锋网不仅在多个国际会议中均看到了阿里巴巴的身影和论文发表,在雷锋网今年参加的IJCAI、CVPR、ACL、KDD、ACMMM、NIPS等六个顶级国际会议中,阿里巴巴均是白金级别赞助商,排名国内企业赞助顶级国际学术会议数量之首;在学术会议的组织参与程度上,阿里巴巴不仅是KDD 2017数据挖掘竞赛的比赛赞助商及主办者,同时还获得了ACMMM 2020的举办权,同样领跑于其他国内企业。
在吸引人工智能顶级人才上,阿里巴巴同样也交出了一份不错的答卷。在今年3月的阿里巴巴集团首届员工技术大会上,马云宣布启动内部代号为“NASA”的计划,面向未来20年组建强大的独立研发部门;10月,阿里巴巴宣布成立全球研究院——阿里巴巴达摩院,3年投资1000亿人民币。2017年,王刚、任小枫、聂再清、李名扬等国际级人工智能人才加盟阿里巴巴,而在此之前,前微软亚洲研究院副院长王坚、IEEE 院士华先胜、普渡大学终身教授司罗,前微软研发合伙人周靖人等科学家也纷纷选择了阿里作为科技研究的新根据地。坚实的人才储备不仅使得阿里在各人工智能学术会议的表现步步走高,也为阿里的人工智能产品商业化打下了良好的基础。
(阿里巴巴人工智能实验室高级专家张硕)
相应,在人工智能的顶级学术会议上,阿里也在不断通过新的尝试输出自己的对外影响力。近日,在美国加州长滩举办的 NIPS 2017 大会上,阿里巴巴人工智能实验室高级专家张硕、阿里巴巴首席工程师(Principal Engineer)李欣、阿里巴巴iDST院长金榕分别开设了迷你研讨会,对各自领域在人工智能领域的工作及实践进行了介绍。
阿里巴巴人工智能实验室:打造下一代人机交互平台
阿里巴巴人工智能实验室于2016年成立,目前拥有200余名研究员和科学家,负责人为淘宝首任产品经理、智能生活事业部总经理“浅雪”(陈丽娟),其定位更多偏向于消费级产品的落地,如实验室的第一款智能语音终端设备“天猫精灵 X1”,以及背后的智能语音助手和开发者平台 AliGenie等。
阿里巴巴人工智能实验室自从成立以来一直保持低调,今年7月5日的智能音箱“天猫精灵 X1”发布会是其成立一年以来的首次公开亮相。而在 NIPS 上,人工智能实验室也就自己所做的人工智能相关工作进行了讲解,以吸引更多的人才加盟。
(天猫精灵x1智能音箱)
在 NIPS 大会正会第一天,阿里巴巴人工智能实验室的高级专家张硕介绍,人工智能实验室主要任务是打造下一代的人机交互平台,在感知和推理能力(包括语音识别、语言理解、计算机视觉等)、知识数据库(包括知识图谱、用户配置文件等)、按需行为(包括服务和流动性等)等三方面创造人性化的机器。随后张硕对实验室在今年推出的三个产品:智能音箱、语音开放平台ALiGenie和AR开放平台进行了介绍。
据雷锋网了解,张硕在2011年于康涅尼格大学获得电子工程博士学位,在加入阿里巴巴之前,他是UTRC的主管工程师, 负责Sikorsky载人无人机SARA的环境感知系统,此外他还曾担任著名无人车创业公司nuTonomy美国感知技术组负责人。
搜索事业部:大数据高并发环境的个性化搜索与推荐
作为一家有着80亿款商品在线的电商公司,搜索对于阿里巴巴的重要性不言而喻。据阿里巴巴搜索事业部研究员李欣介绍,从2013年的MPI(Message passing interface)机器学习平台算起,阿里巴巴的搜索技术每年都会有一次大的更新换代,最近使用的是包含在线深度学习平台与离线深度学习平台结合的异构计算,机器学习与深度学习在阿里的搜索体系中占据着重要的位置。
(阿里搜索事业部研究员李欣)
在具体业务上,阿里巴巴搜索团队为淘宝、天猫、聚划算、淘抢购、天天特价、淘金币等业务提供搜索、个性化引擎和图像引擎服务,该团队的主要研究方向包括:构建更大规模的排序系统的机器学习平台,提升大规模数据下系统对用户行为的快速反应能力、提升算法的效率。
李欣为我们举了阿里在商品搜索和推荐中遇到的具体问题的例子。“例如在双11的时候,有超过100万的用户购买了阿里巴巴的天猫精灵X1智能音箱,无论是商品的价格、用户的偏好以及相关产品的推荐,我们都需要进行相应的调整。”
对于这个问题,搜索团队采用的是一种被称为“深度用户感知网络”(Deep User Perception Network,DUPN)的技术,通过对用户信息和商品信息的分析实现多个不同的任务,如预测用户的商品点击率、价格偏好区间、对该用户的商品排序等。DUPN的最大特点是基于环境变化的注意力机制,阿里采用的是两套不同的深度学习平台,即在线深度学习平台与离线深度学习平台训练并进行同步的方法,在正常情况下,两套平台每天同步一次,而在特殊的场景(如双十一),线上模型可捕捉到环境变化,然后调整参数,实现这两套平台的实时同步,对用户的行为进行更精准的分析和推荐。从结果来看,DUPN 要比 DNN、CNN 和 LSTM 也有着更好的效果。
(实时同步示意图)
李欣博士于伊利诺斯香槟分校获得计算机博士学位。在加入阿里巴巴前,他曾在Yahoo和Bing担任主任研究员及首席研发经理,在核心搜索排名及查询上发表了20余篇论文,并有6项美国专利。在未来阿里的搜索上,李欣博士表示在覆盖新用户和新产品、多模态交互和用语音和文字的交互进行产品推荐等方面都是搜索的重点研究方向。
iDST:阿里巴巴的深度学习应用
在正会的最后一天,阿里巴巴iDST院长金榕在阿里巴巴展区进行了《阿里巴巴的深度学习应用》(Deep Learning at Alibaba)的分享。作为在电商领域有诸多业务的企业,阿里巴巴对深度学习有很大的需求,尤其在信息检索(搜索和推荐系统)、语音技术(自动语音识别、语音合成,对话管理)、自然语言处理(拼写检查、依存语法、问答和机器翻译)等领域,阿里将深度学习应用到业务中时会遇到许多学界人士不可能遇到的问题和新的挑战。
(阿里iDST院长金榕在阿里展位进行技术分享)
例如在计算机视觉领域,金榕举的例子是 2014 年上线、通过搜索图片找产品的拍立淘。目前拍立淘拥有现在已经有超过1亿件商品的30亿张图片,每天有至少1500万活跃用户。这项业务的基础就是通过深度学习对结果进行排序,阿里研究人员通过用户记录的三元组数据(查询图片、点击图片和未点击图片)来训练模型的排序损失函数,从而得到排序结果。
另外,金榕还展示了阿里在模型压缩方面的成果。现在的深度学习模型变得越来越复杂,甚至有的模型已经超过了1000层,参数空间达到了10亿级。这使得深度网络神经学习在优先的存储器和计算资源下难以运行。金榕在此提到了阿里的两种解决方案:模型压缩和浅网模型的构建,在演讲中,金榕提出了一个利用交替方向乘子法(Alternating Direction Method of Multipliers,ADMM)的low-bits量化神经网络的框架来压缩模型。ADMM是一种求解优化问题的计算框架,它能够将连续解和离散解结合起来,利用连续解的梯度来指导离散解的搜索。此外为了更有效地运行ADMM,他们还开发了额外梯度下架方法(extra gradient descent method)来解决优化问题,这种方法能够加速收敛。
现场:研讨会反响热烈
随着马云在国际舞台的频频亮相,不少外国人对于阿里巴巴和和淘宝均有着一定的认知,这使得阿里巴巴在向现场参会者介绍时可以跳过了“阿里巴巴是谁”的环节,直接进入机器学习、深度学习等技术在阿里巴巴的应用的介绍。
雷锋网注意到,在诸多参加 NIPS 的中国展商中,阿里巴巴是唯一三天在展位现场都开展技术分享的中国企业,而这几次迷你研讨会均吸引了不少参会者的关注,为阿里贡献了不少的人流量。在演讲结束后,还有不少参会者现场进行技术交流,以及询问如来阿里人工智能实验室、iDST实习及达摩院相关事宜。
随着人工智能的火热,吸引顶级人才的成本越来越高,在杰出人才百万年薪计价的今天,国内的顶级人工智能企业需要在像 NIPS 这样的学术会议上“Show muscle”,引起更多人工智能学生和研究者们的注意。
据雷锋网现场了解,不少参会学生均将“工作与自己领域是否相符”和“团队Leader的技术实力”作为在申请未来工作中最重要的衡量指标,相比起传统展会上各家公司力推的产品和公司介绍,像阿里巴巴这种“技术大牛现身说法”的分享会也有着更好的效果,或许在不久的将来,类似的研讨会也将成为各大展商展示自己实力的“标配”。
。