阿里之夜×AAAI 2018,立足产学研构建全球合作共同体
雷锋网 AI 科技评论按:AAAI(Association for the Advancement of Artificial Intelligence,国际人工智能协会)是人工智能领域最为权威与重要的协会之一,而 AAAI Conference on Artificial Intelligence(AAAI)则被中国计算机学会(CCF)推荐为人工智能的 A 类会议。2018 年 2 月 2 日-7 日,第 32 届 AAAI 会议(AAAI-18)在美国新奥尔良举行。本次大会的官方资料显示,AAAI 今年主会共收到投稿 3808 篇,录用论文 938 篇。
值得一提的是,来自中国的投稿数从去年的 785 篇蹿升了 58%,达到 1242 篇,并有 260 余篇论文被录用。而在 AAAI 2018 上,阿里巴巴共有 11 篇录用论文,6 位作者受邀赴主会作报告。论文内容涉及对抗学习、神经网络、提高轻量网络性能的训练框架、机器翻译、聊天机器人、无监督学习框架、极限低比特神经网络等技术方向。
作为开年首个顶级人工智能学术会议,阿里巴巴不仅收到众多论文被收录的喜讯,在会议举办期间,阿里巴巴也于当地时间 2 月 5 日晚间举办了新一期的 workshop-阿里之夜,以开启新一年的征程。雷锋网 AI 科技评论也作为独家媒体受邀做现场报道。
阿里之夜,深度融合产学研
2 月 5 日当晚,阿里之夜在 AAAI 2018 会场顺利进行。上百名 AAAI 组委成员、论文合作者、研究院所专家、高校学者通过定向邀约制齐聚一堂,不仅有 AAAI 协会主席 Prof. Subbarao Kambhampati 及 18 位 AAAI 2018 组委成员列席参与,还有来自全球 60 位 top 学者专家(包括 US Army research office 的 Dr Liye Dai, Director of MIT Initiative on the Digital Economy,Dr. Erik Brynjolfsson),以及全球著名高校的 60 多位 PhD 同学也参与了这一活动。
阿里巴巴人工智能实验室北京研发中心负责人聂再清博士作为代表作欢迎致辞,并以视频、图片等丰富形式分享了阿里的人工智能最新研究进展和未来布局。
与此同时,作为受邀嘉宾出席「阿里之夜」的 AAAI 协会主席、美国亚利桑那大学教授 Subbarao Kambhampati 先生也做了致辞。Kambhampati 教授表示,「我在近几年造访中国,发现人工智能已经在中国蓬勃兴起,而且中国工业界拥有众多首创模式和技术,在人工智能领先表现让我感到非常振奋。此外,投资界及政府对人工智能也给予了众多关注和支持,于我看来也是 AI 在中国进步的重要体现。」Kambhampati 教授用自己在中国的亲身经历告诉大家,阿里的产品给人类生活带来的便捷和高效,高度评价了阿里巴巴将人工智能技术转化为产品和服务的能力。
阿里巴巴达摩院机器智能技术实验室 NLP 资深专家陈博兴和技术战略部同学分别在会上分享了「AI 在阿里巴巴」及阿里巴巴学术合作项目。以阿里巴巴达摩院机器智能技术实验室为代表,阿里巴巴展示了自己在智能语音、机器视觉(如图像/视频内容分析)、NLP(自然语言处理)及机器学习&优化四大领域为基础的研究业务。
此外,阿里技术战略部同学展示了全球学术合作的相关进展。以「AIR 计划」为代表,在过去一年收到了 234 个来自全球 13 个国家、99 所高校的项目,并最终有 40 个优秀项目入选 2017 AIR 计划全球评选结果。
在活动的最后,阿里巴巴还预告了将要开启的一项重要赛事——2018FashionAI 全球挑战赛。这一赛事由阿里巴巴「图像和美」团队联合香港理工大学纺织与制衣系共同发起,并通过发布业界首个满足服饰专业性和深度学习要求的大规模高质量数据集,号召业界一起聚焦机器认知时尚的两个基础问题:服饰关键点定位和服饰属性标签识别,共同推动 AI 技术在时尚产业的落地。
一名海外学生表示,他通过「阿里技术」公众号了解到,阿里之夜将同期在 AAAI 2018 会议期间举行,抱着对阿里巴巴学术合作项目的好奇,他第一时间报名参加了这次活动。「(这次活动)让我更加深入地了解了阿里巴巴在学术领域的投入,感觉它是一家真正重视研究的企业。」
扎根论文,阿里迈出学术步伐
「阿里之夜」是阿里巴巴在学术会议上举办的 workshop 品牌,旨在搭建全球学术合作桥梁,构建全球产学研合作共同体。在去年的 IJCAI 2017 上,阿里巴巴也进行了「阿里之夜」的相关活动,同样吸引了众多学者的深度参与。
而这也正是阿里巴巴深度参与学术会议的一个重要目的。阿里巴巴 AAAI 2018 现场负责人石洪竺告诉雷锋网 AI 科技评论,在一个聚焦的学术会议上举办阿里之夜,面向对应专业的学生去介绍阿里的技术品牌,「用这一方式产生更多的影响力,去影响我们最想影响的那些人,我认为这是阿里巴巴参与学术会议永恒的主题。」
聂再清博士也强调,「阿里之夜的宗旨是打造阿里巴巴的技术品牌与技术影响力,带动产学研的交融。」据介绍,阿里巴巴在 2018 年将计划在不同领域的学术顶会上持续带来「阿里之夜」的品牌活动。
如果说,阿里巴巴举办阿里之夜是希望从宏观角度展示自己在学术领域取得的成果,那么在学术会议所取得的成果则更能从微观凸显阿里巴巴在人工智能领域的优秀表现。
在过去一年,阿里巴巴共有 5 篇 KDD 论文、4 篇 CVPR 论文、3 篇 ACM MM 论文、11 篇 IJCAI 论文先后被录用,横跨数据挖掘、计算机视觉、多媒体、人工智能等多个领域。此外,在机器视觉算法测评平台 KITTI、国际肺结节检测大赛 LUNA16、知识库构建测评 KBP2017 等多项国际权威赛事上,阿里巴巴也多次刷新世界纪录并取得测评赛事的冠军。
除此之外,阿里巴巴也争取到了机器视觉顶级会议 ACM MM 2020 的主办权,成为首个获得主办权的中国企业。
步入 2018,在今年 1 月,阿里巴巴机器智能技术实验室 NLP 团队提交的 SLQA 算法模型,在 SQuAD 挑战赛中也取得了精确匹配、模糊匹配第一名的成绩。与此同时,这也是 AI 历史上机器阅读理解首次在精确匹配上超越人类阅读理解。
在首个顶级人工智能学术会议 AAAI 2018 上,阿里巴巴共有 11 篇论文入选并均被主会收录,涉及对抗学习、神经网络、提高轻量网络性能的训练框架、机器翻译、聊天机器人、无监督学习框架、极限低比特神经网络等领域。
在阿里之夜的现场,聂再清博士告诉雷锋网 AI 科技评论,阿里巴巴希望从战略高度,由电商企业向一家技术驱动的公司转型,而要做到这一转型,需要有大量的新技术做为支撑,「从公司的战略角度出发,我们在技术研究上投入了大量的资金和人力,特别是我们最近在达摩院上的部署,包括像 AAAI 2018 阿里之夜这样的学术活动,都是阿里巴巴高度关注技术的一种表现。」
而从选题角度来看,聂再清博士表示,学术论文所解决的问题,很重要一部分都来源于企业在实际中碰到的需求,阿里巴巴会尝试让技术水平达到理想状态,让用户满意,随后才是论文的总结与发表。
以阿里巴巴今年的 AAAI 2018 录用论文《Extremely Low Bit Neural Network: Squeeze the Last Bit Out with ADMM》(极限低比特神经网络:通过 ADMM 算法压缩掉最后一个比特)为例,从移动端部署的实际需求出发,团队试图通过低比特技术来压缩和加速深度神经网络。论文第一作者冷聪介绍道,团队将这个问题建模成一个离散约束优化模型,并引入了 ADMM 算法,将原始问题分解成几个子问题,针对每个子问题分别给出高效的求解方法。实验发现,所提出的训练算法具有很快的收敛速度。同时,在精度和模型前向速度方面,团队的低比特算法超过了现有主流的压缩算法。
而在实际应用上,冷聪告诉雷锋网 AI 科技评论,端上存储仍然需要考虑业务的实际需求。对于精度不敏感的应用,可以使用非常低的比特来量化模型,「在精度低一个点甚至零点几个点的前提下,如果能带来几十倍的压缩,那么是完全可以接受的」,而对检测等对精度比较敏感的应用而言,采用高比特技术的压缩可能更符合实际需求。
在与雷锋网 AI 科技评论交流的时候,冷聪表示,虽然在研究选题上还是要以公司的业务和价值取向出发,但一篇论文从构思到撰写完稿需要至少一至两个星期的「脱产」才能完成,即在这段期间,员工会将优先级完全放在论文的写作上。在冷聪博士看来,阿里巴巴愿意让员工潜心完成论文的写作,本身就是一种对学术交流和讨论的重视和投入。而选择一些优秀的技术以论文的形式投递各大学术会议,也是阿里巴巴对外进行学术交流的一种形式。
而在机器翻译上,阿里巴巴也凭借《Improved English to Russian Translation by Neural Suffix Prediction》(一种基于词尾预测的提高英俄翻译质量的方法)受邀在 AAAI 2018 上做口头报告。团队提出了一种创新方法,不仅能够通过控制翻译粒度来减少数据稀疏,还可以通过一个有效的词尾预测机制,大大降低目标端俄语译文的形态错误,提高英俄翻译质量。通过和多个比较有影响力的已有工作对比,在 5000 万量级的超大规模的数据集上,这一方法可以成功的在基于 RNN 和 Transformer 两种主流的神经网络翻译模型上得到稳定的提升。
而在落地层面,阿里巴巴又是如何将学术研究成果与实际产品应用联系起来的?
立足学术,产业应用落地开花
实际上,阿里巴巴对学术与产业的鸿沟并没有那么难以跨越,两者与其说是「先有鸡后有蛋」的关系,倒不如称之为互为因果、相互促进的螺旋式上升关系。
先从被广泛认为最具落地想象空间与可行性的计算机视觉来看,阿里巴巴从电商起家,以「拍立淘」等以图搜图的相关应用入手,逐步丰富在 CV 领域的技术积累。
达摩院机器智能技术实验室副主任华先胜此前在接受雷锋网 (公众号:雷锋网) AI 科技评论采访时曾表示,电商搜索与城市大脑,本质上都是视觉系统问题。「阿里城市大脑中很关键的一个任务就是要解决视觉信号的问题,这实际上是对城市的智能感知。」因此,阿里巴巴在计算机视觉领域所做的研发和投入,正是希望让城市大脑做到「全面知、全局知、全时知」。
在过去一年间,阿里巴巴所取得的领先成果便已经令人们感到惊讶与叹服。从应用场景来看,去年成功当选「国家队」成员的阿里云城市大脑让我们看到了国家对阿里巴巴 AI 力量的认可。实际上,早在 2017 年 11 月成为国家新一代人工智能开放创新平台的人工智能技术服务之前,杭州城市大脑 1.0 便已顺利发布,接管杭州 128 个信号灯路口,试点区域通行时间减少 15.3%,高架道路出行时间节省 4.6 分钟。在杭州主城区,城市大脑日均事件报警 500 次以上,准确率达 92%;在萧山,120 救护车到达现场时间缩短一半。
更如果把时间线往前继续推移,阿里云在 6 月 10 日的云栖大会•上海峰会上宣布推出应对全球环境恶化的技术方案:ET 环境大脑。这一方案已在江苏实现了对水、气、土、污染源的智能感知。据了解,在沿海多个省份的固废全程监管模拟推演中,政府使用 ET 环境大脑共预警 131 次,其中有效预警 122 次,有效率达 93%,管理企业达 2.5 万家。
而从语音识别领域,我们更看到了阿里巴巴在这一领域的全力投入。不论是首款智能音箱天猫精灵 X1 的顺利发布及成功热卖;或是 AliGenie 语音开放平台,都是最为鲜活的例证。
阿里巴巴采用先进的六麦克风声学融合的方案,进行声音的定向采集和降噪,实现了 5 米的远场语音识别;而利用声纹识别技术,阿里巴巴基于语音通路,为用户提供更具个性化的定制化服务。
此外,利用海量的语音训练数据和语言数据训练出来的语音识别模型,基于深度语义编码的意图识别和槽填充技术,让设备更懂人,准确解决指代理解问题与用户意图跳转问题,以覆盖生活中的大部分对话场景。
而阿里巴巴创建的「多模态智能语音交互解决方案」,可谓是在全球范围内首次解决了公共环境中强噪声、强干扰下的智能语音人机交互问题。目前,该技术方案已与上海地铁合作,可实现远距离语音购票。这些成果标志着阿里的技术投入已经成功转化为商业化产品,并进一步使你我的生活更加便捷。
陈博兴也向雷锋网 AI 科技评论介绍了阿里在机器翻译领域所取得的成就。阿里起步于电商业务,得益于国际化的飞跃步伐,为配合跨境电商在海外贸易中的沟通需求,阿里巴巴从 2012 年投入做机器翻译业务,目前已经能提供包括商品信息翻译、商品搜索翻译和通用领域翻译在内的三种服务能力,累计为集团 19 个部门共计 23 个应用场景提供语言服务。
丰富的合作资源背后,隐含的是阿里巴巴世界级业务应用场景及世界级海量数据的强大支持。从电子商务起步,如今的阿里巴巴已经拥有金融支付、物流、新制造、新零售等国内甚至世界领先的业务场景,这些场景所产生的 EB 级数据,不论是从数量上或是维度上,都是世界级的。以去年双 11 为例,当天交易创建峰值 32.5 万笔/秒,支付峰值 25.6 万笔/秒,菜鸟网络物流订单量超过 8 亿;而回顾 2017 财年,阿里巴巴平台每天产生数亿消费者浏览和交易信息、包含超过千万级别的商品更迭、5.07 亿的月活跃用户等等。不难看出,阿里巴巴不仅具有丰富的应用场景,在数据的积累与处理上也具有得天独厚的优势。
而从基础设施入手,包括超大规模计算、数据处理及算法平台的构建,都成为了阿里巴巴集团各大业务的关键支持。也正因为如此,人才作为一切技术研发的核心,如何将全球的顶尖学术人才汇聚一堂,并推动阿里巴巴在产学研领域的纵向深入和横向延展,同样也成了阿里巴巴在战略布局上的关键一环。
布局全球,三管齐下推动学术合作
2017 年 10 月的云栖大会上,CTO 行癫宣布了阿里巴巴达摩院的诞生。阿里巴巴达摩院是阿里巴巴集团在全球多点设立的科研机构,通过立足基础研究、颠覆性技术和应用技术的研究,阿里巴巴着眼于汇聚全球顶尖科学力量,旨在成为「世界顶级科研机构」,并开始在全球各地组建前沿科技研究中心,致力于研究机器智能、智联网、金融科技等多个产业的相关领域内容。阿里巴巴达摩院的涉足领域主要包括三个方向:
首先是自主研究中心。通过亚洲达摩院、美洲达摩院及欧洲达摩院三大全球分部,在北京、杭州、新加坡、以色列、圣马特奥、贝尔维尤、莫斯科等地建设立足不同方向的研究实验室,在初期计划将 100 名顶尖科学家与研究人员纳入麾下。
陈博兴也在会后交流时和雷锋网 AI 科技评论表示,这次参与 AAAI 2018 的一个重要体会在于海外留学生对于阿里巴巴特别是达摩院表现出了高度的兴趣。「有很多留学国外的同学在交流时表示,他们希望能更多地了解阿里,也有不少流露出计划到阿里工作、实习的想法。在以前,很少有这么大群体数量的学生对国内的公司表示出这么大的兴趣,在国外的博士生,他们毕业后一般都会希望在谷歌、Facebook、微软这样的企业工作一段时间,再考虑回国工作;而全球达摩院的建立对海外留学生的吸引力大大地增加了。这也得益于人工智能在中国的快速发展,至少在应用上,中美两国在步伐上还是相近的,因此学生们也会更有兴趣选择国内的企业。」
其次是联合实验室。阿里巴巴已与浙江大学、中科院、清华大学、加州大学伯克利分校先后达成合作关系,目前已建立了以浙江大学-阿里巴巴前沿技术联合研究中心、RISELab(加州大学伯克利分校)、中国科学院-阿里巴巴量子计算实验室、清华大学-蚂蚁金服数字金融科技联合实验室在内的多家高校联合研究所,以高校的研究实力及阿里巴巴的商业场景资源强强联手,推动产业界、学术界及研究领域的深度合作。
第三个方面则是阿里巴巴创新研究计划——「AIR 计划」(Alibaba Innovative Research)。作为阿里巴巴达摩院的三大组成主体之一,「AIR 计划」是阿里巴巴集团设立的首个全球性科研项目。这一项目主要致力于推进计算机科学领域基础性、前瞻性、突破性难题的研究,以工业界和学术界深度融合的方式引领重大科技创新的实践应用,构建产学研协作共同体。
在 2017 年,「AIR 计划」发布了 14 个领域、30 个来自业务一线的技术问题,涵盖人工智能、机器学习、数据中心、图计算等研究内容,并收到了来自全球 13 个国家、99 个大学和科研机构提交的 234 份研究提案,最终有 40 个优秀项目入选为 2017 AIR 计划全球评选结果。而除了这一全球性科研项目外,阿里巴巴也通过推进访问学者计划等多种丰富形式,向学者们提供在阿里巴巴的访问研究机会。
不论是阿里巴巴横跨全球的各项学术战略部署合作,汇集世界级的顶尖人才;又或是在各大顶级学术顶级会议上发表论文,积极投身学术研究;抑或是从 IJCAI 2017 开始启动的「阿里之夜」活动,促进与学者的深入交流,本质上都是阿里巴巴关注学术界、立足基础研究的重要表现。借助面向全球的人才部署,相信阿里巴巴将会在更多的学术会议崭露头角,带来更多的研究成果;而依靠强大的应用场景与数据支持,学术研究成果同样能够在阿里收获应用落地的果实,助推阿里技术的商业化步伐。我们也相信,阿里巴巴在 AAAI 2018 的学术征程只是今年的第一步,未来我们还能在更多的学术会议上见到阿里巴巴的身影,在我们的生活中用到阿里自主研发的 AI 技术。
。