阿里AI Labs王刚：谷歌一个模型解决所有问题是不现实的

加速会 • 7年前扫码分享

我是创始人李岩：很抱歉！给自己产品做个广告，点击进来看看。

编者按：本文来自微信公众号 “新智元”（ID：AI_era），作者张易

阿里巴巴人工智能实验室和它的杰出科学家王刚，一直保持着几分神秘感。我们专程到杭州对王刚博士进行了专访。王刚博士认为，谷歌的“一个模型解决所有的问题”是不现实的。他表示人工智能新硬件和降低智能终端成本、生物认知启发、量子力学和量子计算机与深度学习的结合是个人感兴趣的方向，除了最后一项，其他都是实验室目前正在研发的。他谈到了学术界和工业界研发过程的区别，并介绍了阿里的 AI 人才计划。为了进一步了解王刚和阿里人工智能实验室正在做的事情，我们介绍了 CVPR 2017 上阿里人工智能实验室入选的三篇论文，每一篇都有王刚博士的深度参与。

在德州扑克的赛场上，当有人 All in 时，其实你只有两个选择：跟，或者弃。

在国内人工智能布局的赛道上，没有谁会选择“弃”。于是，已经低调成立一年的阿里人工智能实验室，在有人宣布 All in的同一天，高调亮相。

这一天出现在大家面前的，除了一台声线甜美的智能音箱，一位长相甜美的负责人，还有一位年轻的杰出科学家。当你以为这位科学家是其中最不性感的一环时，他却如此描述自己从南洋理工大学加盟阿里人工智能实验室的原因：

“做 C 端的产品，更性感一些。”

王刚，2017年3月加入阿里巴巴人工智能实验室，担任杰出科学家，负责机器学习、计算机视觉和自然语言理解的研发工作。他此前曾是南洋理工大学的终身教授，同时也是人工智能领域最顶尖杂志IEEETransactions on Pattern Analysis and Machine Intelligence的编委(Associate Editor)，曾多次受邀成为人工智能顶级学术会议如InternationalConference on Computer Vision的领域主席，在深度学习算法领域具有深厚的研究积累和国际权威。2016年，他还因在深度神经网络设计上的卓越贡献，成为当年《麻省理工技术评论杂志》评选出的10名亚洲区35岁以下青年创新奖得主之一。2005年，王刚本科毕业于哈尔滨工业大学，2010年在伊利诺伊大学香槟分校获博士学位。

在阿里人工智能实验室所在的杭州，王刚博士接受了新智元的专访。刚见到王刚博士时，我怀着这样一种想法：既希望他成为我们理解阿里人工智能实验室的钥匙，也希望阿里人工智能实验室成为我们理解他的钥匙。

专访综述：一个模型解决所有的问题是不现实的

作为深度学习算法的专家，王刚博士在计算机视觉和自然语言理解两大应用领域都做了很多工作。在采访中，他一方面强调了语音和视觉的结合对于人机交互的意义，认为“语音视觉”是人机交互的未来，并表示实验室目前也很关注“视觉文字”这样的多模态训练研究热点；而另一方面，他也明确指出，自己并不认同谷歌提出的“一个模型解决所有问题”，认为在每一个单独的领域，模型仍然是需要定制化的。

对于深度学习的发展，王刚博士谈了几个他感兴趣的方向，由此也能看到阿里人工智能实验室的一些研发方向。王刚博士谈到了人工智能新硬件和降低智能终端成本，生物认知启发，量子力学、量子计算机和深度学习的结合等。王刚博士说，除了最后一项，其他都是实验室目前正在研发的。

对于从大学教授到企业科学家的身份转换，王刚博士最大的感觉是兴奋和充实，因为他“喜欢落地或者商业化这样的东西”，而在学校进行这方面的研究“离市场和消费者太远了”。当然，他也坦言，作为已经在南洋理工大学拿到终身教职的他，目前的工作强度比在学校还是要大一些。

而谈到研究环境的差异时，王刚博士指出了两点：一是学术界的研究由政府投资，肩负着探索知识前沿的使命，需要探索 5 年后可能的技术方向，起到引领的作用，风险同时也不可避免，而工业界需要面临复杂的、千奇百怪的情况，在落地过程中需要对算法等进行大量的优化；二是学术界在做研究时首先需要将问题定义清楚，而有一些任务，其实并不容易定义，如计算机视觉的“理解”。工业界更关心的则是做出具体的产品，因此可能更有动力进行相关研发。

在王刚博士谈到加入阿里人工智能实验室的理由时，我们发现，这确实和阿里人工智能实验室将自己定位为提供消费级 AI 产品紧密相关。王刚博士此前在南洋理工大学就领导团队研发过时装搜索系统、辅助驾驶系统等密切结合应用场景的系统，且都成功商业化。来到阿里，“发现离消费者这么近，非常开心、兴奋、充实”、“做 C 端的产品，更性感一些”。他表示，自己的梦想和阿里人工智能实验室的梦想一样，都是希望“让具有人工智能能力的产品走进千家万户，给大众的生活带来便利。”

最后，王刚博士透露了阿里人工智能实验室的招聘计划。他表示，从2017年夏季开始，阿里将推出一项 AI 人才的校招计划，主要面向博士生群体，将涉及到计算机视觉、机器学习、NLP、图形图像、语音交互等技术方向。

一人斩获三篇 CVPR 论文

为了进一步了解王刚和阿里人工智能实验室正在做的事情，让我们首先介绍 CVPR 2017 上阿里人工智能实验室入选的三篇论文，每一篇都有王刚博士的深度参与。三项研究分别针对深度学习和计算机视觉所涉及的上下文模拟、场景分割、行为理解等问题提出了解决办法。王刚表示：“这三篇论文都来自于深度学习中的应用场景，未来或将通过人工智能实验室进行落地，例如运用到家庭安全监测场景中”。

Deep Level Sets for Salient Object Detection

结合深度网络的水平集方法在显著性目标检测中的应用

阿里AI Labs王刚：谷歌一个模型解决所有问题是不现实的简介：

阿里AI Labs王刚：谷歌一个模型解决所有问题是不现实的如图，a是输入图像，b是对应saliency区域的groundtruth，c、d对应使用BCEloss训练的深度网络和使用水平集方法的效果，e对应论文的方法；可以看到e在分割细节方面和ground truth最为接近，效果更好，在细节方面提升明显。

显著性目标检测能够帮助计算机发现图片中最吸引人注意的区域，有效的图像分割和图像的语意属性对显著性目标检测非常重要。由南洋理工大学和阿里巴巴人工智能实验室合作，共同提出了一种结合深度网络的水平集方法，将分割信息和语意信息进行结合，获得了很好的效果。水平集方法是处理封闭运动界面随时间演化过程中几何拓扑变化的有效的计算工具，后来被用到图像分割算法当中。深度学习能够很好的建模显著性目标的语意属性，进而进行显著性目标检测，但更多的语意属性信息导致分割边界的低层信息不准确。论文巧妙的结合了深度网络和水平集方法（DeepLevel Sets），同时利用图片低层的边界信息以及高层的语意信息，在显著性目标检测领域获得了state-of-art的效果。

Global Context-Aware Attention LSTM Networks for 3D Action Recognition

将全局上下文注意力机制引入长短时记忆网络的3D动作识别

阿里AI Labs王刚：谷歌一个模型解决所有问题是不现实的简介：

阿里AI Labs王刚：谷歌一个模型解决所有问题是不现实的如图，3D动作识别能够帮助计算及更好的理解人体动作（最左侧的文字），未来可以作为人机交互的一种补充。

3D动作识别能够帮助计算机更好的分析人的动作以及为多样化的人机交互提供更多的选择。一个好的3D动作识别系统需要很好的处理动作在时间（动作需要一定时延）、空间（结构）上的信息。LSTM（长短时记忆网络）能够很好的建模动态的、相互依赖的时间序列数据（如人的3D动作序列），注意力机制能够更有效的获取数据中的结构信息，并排除掉噪声的干扰。由南洋理工大学、北京大学、阿里巴巴人工智能实验室合作，论文结合LSTM和上下文注意力机制，提出了一种新的LSTM网络：GCA-LSTM（Global Context-Aware Attention LSTM）；用来建模动作序列中有效的全局上下文信息（时间信息空间信息），进而进行3D动作识别。同时，论文为GCA-LSTM网络提出了一种循环注意力机制来迭代提升注意力模型的效果。论文方法在3个主流的3D动作识别数据集上都达到了state-of-art的效果。

Episodic CAMN: Contextual Attention-based Memory Networks With Iterative Feedback For Scene Labeling

阿里AI Labs王刚：谷歌一个模型解决所有问题是不现实的 引入迭代反馈的上下文注意力机制记忆网络在场景分割中的应用

简介：

阿里AI Labs王刚：谷歌一个模型解决所有问题是不现实的如图，这是场景分隔在自动驾驶中的应用，通过对路面场景进行分割，可以帮助无人车分析那部分区域是可行驶区域（如图粉红色部分）。

场景分割有着广阔的应用前景，比如自动驾驶汽车通过场景分割获取可行驶区域，比如室内机器人通过场景分割获知室内物体的分布。场景分割对待分割区域周围的区域以及全局信息有较强的依赖关系，但这种依赖关系是动态变化的（即使同一区域在不同的场景中对周围信息的依赖是不同的），因此动态的获知不同区域的依赖关系以及图像全局上下文特征的使用至关重要。由南洋理工大学，伊利诺伊大学厄巴纳-香槟分校，阿里巴巴人工智能实验室合作，论文通过一个可学习的注意力机制网络来刻画不同区域之间的依赖关系，并获取包含上下文信息的特征。进一步，论文通过引入迭代反馈的方式对注意力机制网络的输出进行调节，以获得更好的包含上下文的特征。上述方法在场景分隔任务中获得了和当前state-of-art算法相当的效果。

以下是新智元对王刚博士的专访。

语音加视觉是交互的未来

新智元：王刚博士，咱们的话题不妨从本月初发布的天猫精灵 X1开始。这个项目中哪部分您参与的比较多？

王刚：我 3 月份加入 AI Labs ，很快就深度参与了这个项目。主要是跟算法团队一起实现天猫精灵算法的落地，所以算法上参与比较多。

新智元：阿里人工智能实验室的英文是 AI Labs，为什么 Lab 用的是复数形式？

王刚：因为 Labs 里面有算法 Lab，也有终端的 Lab，等等，阿里人工智能实验室是一个航空母舰。

新智元：您认为语音会是下一代人机交互最重要的入口吗？

王刚：这要看人机交互的发展，我觉得近几年人机交互应该像人和人的交互一样，是往这个点去逼近的。人跟人之间的交互，主要是靠语言，再加上视觉，比如去阅读对方的表情或者各种情绪。我觉得语音肯定是下一代人机交互一个非常主要的部分，同时视觉加上语音会让这个交互更加高效。所以我认为语音加视觉是交互的未来。

从识别到理解，还缺少基础的一环

新智元：但是对于各种语音助理，有时用户体验并不好。这一方面可能有用户使用习惯的问题——因为语音助理会说话，用户就愿意去问它各种各样的问题，而目前场景限制其实是必要的。您认为除了这一点之外，智能语音助理想要带来更好的用户体验，技术上还需要哪些突破？

王刚：这是一个很好的问题。我们可以看到，天猫精灵 X1 在很多问题上还是做的比较好的，能够满足用户的很多需求。自然语言理解目前仍然是非常有挑战的任务。我这里指的是，对自然语言的理解有时是超出语言范畴的。

比如说像网上有一个段子，说有两种人不能谈恋爱，一种是谁也看不上的人，另外一种是谁也看不上的人。如果让机器理解这两句话的区别，它首先需要知道这两种人到底有什么样的特征，这需要多维度的信息。但这样多维度的信息，目前还没有被很好的输入到机器里面。

所以从技术上来讲，我觉得一个要做的事情是，怎么能够把世界知识以更好的方式表达出来，并且能够让机器去理解，去吸收这些知识，并且跟深度学习这样的技术融合在一起。因为深度学习主要解决的是模式识别的问题。我们以前不能够很好的表达这个信号，必须要人工去设计特征来表达，比如像语音、文字或者是图象的特征。

那么深度学习要解决的问题，就是能够让机器去学习出这种特征，能够把这个信号映射到我们预先定义好的一个类上面，标记 Semantic Label，但是从 Label 到理解，我认为缺少“世界知识”这样一个基础。人是基于这个知识，然后再基于我们看到的东西，来进行推理和理解的。这一环目前仍然是缺失的，我觉得这是一个技术需要投资的地方。

新智元：您认为世界知识应该主要是由机器学习还是人工来实现呢？人工的规则在这里有没有用武之地呢？

王刚：我觉得两者都是要有的，因为机器学习现在的主要长处还是在于Supervised Learning。像这种世界知识，我们很难给它提供这么多的 Label，所以它需要可能一些 Unsupervised Learning、Semi-supervisedLearning 的方式，同时也需要人工去参与。就像小孩一样，也需要别人把书编好让他们去阅读。编好书的过程就是一个知识传承的过程，是一个世界知识表达的过程，但现在机器是缺少这一块的。

新智元：我曾接触过这种语言知识库填写的工作。为语言设计一套符号体现，然后通过为词语（因为词语是有限的）填写符号，来表达特定的知识。比如“结婚”一词，它的符号就会展现出这个行为的“主语”是两个人，一般是一男一女，在具体的语境中，这个符号也展现出了对于主语的预期。现在较少听到类似的工作了。这样基于人工规则和符号系统的方法还会回来吗？

王刚：我想这样的任务或者需求肯定会回来的。因为现在学术界关注于刚才所讲的识别问题或者映射问题。像 ImageNet 这样的数据库比较容易建，把 Label 标好之后比较容易建好，并且大家用着也很方便，学术界就更有可能去做。

但在性能逐渐提升以后，并且工业界也有了更高智能的需求，那么要更智能的东西，肯定就需要知识表达，所以我觉得这样的任务或领域肯定会回来，但是它的方法是不是要经过迭代？我觉得是肯定的。因为现在的机器学习，我们是经过了多轮迭代的，所以它是螺旋型上升的。我认为知识表达也会是这样。

一个模型解决所有问题并不现实，各个领域的模型需要定制化

新智元：作为深度学习算法领域的专家，您之前的工作既涉及到视觉理解，也涉及到语义理解。现在谷歌提出了“一个模型解决所有问题”的方法，在一定程度上也引起了学界的争论。您觉得这样的方法现实吗？

王刚：我们来看看深度学习最开始提出来的 Motivation 是什么。它主要针对用人工方法很难去理解信号里面那么复杂的东西，你靠人工去设计这个特征，去表达这个信号，是不太靠谱的。所以我们需要端到端的这样一个深度学习网络，它能够从信号里面自己去发现特征，让任务做的更好。它的Motivation 就是这样的，因此深度学习很大程度上削弱了先验知识和领域知识的重要性，它更多强调的是Data Driven。

所以我觉得 One Model 的设计可能在各个任务上都能取得还不错的结果，至于说是不是能够解决所有的任务呢？我是不认同的。Machine Learning 中有一个理论，是说一个 General Model 肯定不能在每一个单独的领域上超过为这个领域自己设计的定制的Model，深度学习网络也是如此。比如说我们以前在做计算机视觉的不同任务时，就发现针对不同任务，如果考虑到先验知识，利用它去更好的设计网络结构，也就是让网络结构能够更适应这个任务的特点，那么它学出来的东西其实会更有效。更不要提语音、文本、图象，它们之间的差异化要大得多。因此我认为这种模型的设计还是要定制化的。

关于“理解”，将问题定义清楚，是学术研究的前提

新智元：我们会说，在自然语言理解领域，会发生从识别到理解的进化。在计算机视觉领域，会发生从识别到理解的变化吗？

王刚：你讲的理解是指什么？

新智元：比如说在一个视频中，能够迅速检测到目标，这是识别；判断几个检测目标的关系，这是理解。

王刚：这一块跟我讲的自然语言理解的难点还是有相通之处的，比如我们看到一幅画：一个公交车站，一个人坐在凳子上，其实人是能够想象出这个人是在等车，但如果你让计算机去“看”，他只能做识别。从识别到理解，也是缺了知识的表达，再加上推理。这两个部分现在是缺的，这是为什么没有真正的“理解”或者智能的原因。

这个问题会不会在学术界引起重视呢？我认为大家知道现在缺这样一个东西，但是会不会去做？我不太确定。因为这个东西确实很难定义。学术界做的东西首先还是要能够定义清楚的，我们大家去PK 就行了。但是这样一个更广泛的任务，很难去定义。而工业界在做具体产品的时候，反而可能更有动力去做。我希望学术界有人能把这个问题定义好，引导这个潮流。

新智元：是的，这个问题我刚才描述的都不是太清楚，确实很难定义。

王刚：对的。而且计算机视觉的“理解”，有很多是跟任务相关的。比如说刚才我讲的等车，可能在我的眼睛里，这个人是在等车；而从警察的眼睛里看，可能要判断的是他是不是一个犯罪分子。只有我们先定义好任务是做什么，才能进行下一步研究。比如我定义这是一个家用机器人，让它去看这个世界，它的理解就会跟它的任务相关。所以我想，可能还是要在机器人这类东西兴起之后，这样的任务才会受到更广泛的重视。

新智元：您刚才说到了语言理解视觉理解。在训练机器人的时候，是否也可以让语言的训练和视觉的训练同时进行呢？

王刚：我觉得正应该这么做，就像人学习的时候，也是通过多模态来进行学习。语言、图象还有包括触摸、气味等输入，都是一起进行的，这样学习会更高效。所以在学术界，我们也看到，今年有很多视觉和文字一起结合进行学习的文章，大家也非常关注这个问题，并且这样一个浪潮或者热点会持续下去。

新智元：这也是人工智能实验室特别关注的一个部分吗？

王刚：对技术前沿的东西，我们会持续关注。

感兴趣的方向：端上的人工智能、生物认知启发、量子计算

新智元：关于深度学习的发展，请您谈一下您在哪些方面感兴趣吧。

王刚：因为我现在是在人工智能实验室做端上的人工智能。我们希望打造像天猫精灵这样的人工智能新硬件。对于我来讲，我希望能够看到神经网络更轻、更快，在端上能够更好地跑起来。因为两三年前，大家做深度学习，都要在云上，基于大量的GPU 来做，提供的也多是云上的人工智能产品。现在我们要让人工智能走到端。最近两三年有很多工作，都是致力于让神经网络的速度更快，从而有可能在端上顺畅进行。我还是希望端上能更快一些，毕竟端上的成本还是比较敏感。

另外从研究的角度讲，我个人比较期望的还有神经生物领域的一些进展，能够进一步启发计算神经网络。我们看历史上的神经网络，像最初的 CNN，还有最近的 Attention 、Memory，其实都是受生物认知的启发。这两样东西是完全不一样的，一个是人脑，一个是电脑，但仍然很有启发性，这就好像说飞机和鸟儿都是有空气动力学的。所以生物认知上的一些东西还是可以挖掘的，应该能够进一步启发我们设计更高效的网络。这是第二点

另外一点，我也比较关注量子力学、量子计算机和神经网络的结合，和深度学习的结合。其实现在已经有一些相关的全新的探索发出来，我也希望看到今年能有更大的进展，因为这样我们训练深度学习就会更快，能够在最短的时间内训练完。

新智元：阿里人工智能实验室会有这几方面的研究吗？

王刚：在量子力学方面，还是需要一些设备，但是前面两项我们实验室都在研究，在研发。

新智元：终端和云端有一个协作的问题，如果想提高终端计算能力的话，阿里人工智能实验室会不会有自己的智能芯片的研发计划？

王刚：因为神经网络或者说模型的效果在慢慢收敛，所以我觉得智能芯片未来肯定会越来越流行。但是至于说我们是不是在研发，可能还不太方便披露，现在我们先保留一个悬念吧。

新智元：您以前提到，在南洋理工，你曾经建了一个标准的数据库，这个数据库学术界和工业界都在用。结合阿里的优势，现在实验室有类似的研究计划吗？

王刚：我们有数据库建设的计划，我觉得这个数据库建设肯定是非常有意义的。在阿里，我也在考虑，是不是在一些恰当的问题上，也做一些这样的数据库建设。我们在建数据库的时候，肯定都是只用一些外界都能拿到的数据来建这样一个数据库。

消费级 AI 产品，既是个人兴趣，也是实验室的研发方向

新智元：您觉得来到阿里人工智能实验室以后，状态跟之前在大学里面有什么不一样？

王刚：我觉得还是挺兴奋的，因为在学校期间，其实我也非常喜欢跟商业化相关的事情。我觉得技术最终还是要转化成产品才更有意义，因为每个人的兴趣爱好不一样，萝卜青菜各有所爱。我比较喜欢落地或者商业化这方面的东西。而在学校里面有一个问题，就是离市场太远了，也不知道大家需要什么，也没有产品等各方面的相关人士去配合工作。所以到阿里来之后，发现离消费者这么近，既有天猫精灵 X1 这样的消费级产品，也有优秀的硬件、产品方面的同事，所以觉得非常兴奋，非常开心，很充实。

新智元：那么工作节奏上呢？

王刚：工作节奏还是要比学校快一些，因为在学校，尤其是拿到终身教职之后，相对而言强度不是那么大，在公司强度会高一些，因为我们要发产品，产品要打磨，要用很多心思，不过觉得很充实。

新智元：您在这个岗位上有什么新的梦想？

王刚：我的梦想跟整个实验室的梦想差不多，都是希望能用人工智能去 Enable 这些硬件，让具有人工智能能力的产品走进千家万户，能够为大众和消费者都使用，给他们的生活带来便利，这也是我个人的梦想，希望能够看到这一天由我们阿里人工智能实验室来实现。

新智元：是不是有这样一种情况，一些学术界可能已经不会太关注的问题，但是在工业界仍然还是难点。比如OCR，学术界已经不再做它了。但实际上在很多场景下仍是个难题。您是否会有类似的感觉？

王刚：是有这样问题的，学术界和工业界的任务和使命不太一样。学术界更关注的是探索知识的前沿，创造新的知识。它要解决的问题，应该说是在5 年以后会发生的事情，相当于是引领，需要去探索。它具有风险性，是政府投资的，它要探索 5 年之后哪一个技术方向是可能的，或者哪一个技术方向不可能，它有这样的任务。

工业界界实际上应该在学术界之后，在学术界探索出某种技术，比如 OCR，是可能的。这个东西有可能实现，工业界就去实现落地，在落地和方向之间，肯定有是 Gap 的。比如说学术界最开始做这个题目时，可能做了一个比较 Toy 的 DataSet，他可能没有考虑到工业界需要面临的非常复杂的情况。因为它是学者建立的，比如说做 OCR 的研究，他可能会找到一本书，感觉印刷不是特别好，就拿过来扫描一下，作为数据库。

但是在工业界应用的时候，我们就发现会有光照、遮挡等等千奇百怪的情况，这些学者在办公室里面是考虑不到的。所以我们在落地的时候不可避免的会遇到这样的困难，需要花很多时间把算法进一步优化。大的方向是确定的，但在这个基础上还要进行很多的优化，让它落地。

新智元：阿里人工智能实验室定位于消费级 AI 产品的研发。这一点和您选择加入阿里有关系吗？

王刚：对，我觉得关系挺大的。我刚才讲过，以前的人工智能产品主要在云上实现，这一块已经发展比较长的时间了。不管是阿里云还是亚马逊云，上面都有很多人工智能的解决方案，比如人脸识别、语言识别方面的。但是在端上，还是一个相对空白的市场，并且端上可能会更难一些，因为这个端可以放在不同的环境里面，不同的场景里面，并且还要考虑到计算等各方面的制约，所以说挑战也会更大一些。那么做C端的产品，其实也更性感一些，所以我觉得这是非常好的、非常有意思的一个机会，也跟我的兴趣非常一致。

新智元：消费级 AI 产品，在整个阿里人工智能战略里面的定位是怎样的？相关的技术是否会开放呢？

王刚：打造下一代的人机交互产品是阿里AI战略里非常重要的部分。我们的天猫精灵让消费者觉得用语音交互居然可以做这么多的事情，很有意思。我们也希望有更多用户体验不同的产品形态，来享受这个新技。所以同时我们也是开放的，天猫精灵里面使用了AliGenie这个第一代中文人机交互系统，它能够精确的理解用户的语言，智能的对话，个性化提供用户需要的服务。我们AI Labs把AliGenie开放给开发者、硬件厂商所使用。我们希望我们的AliGenie能去 Enable 所有的硬件，我们希望让更多具有人工智能能力的产品，能够快速的落地，被消费者所使用。

阿里的 AI 人才计划

新智元：阿里人工智能实验室目前最需要哪方面的人才？

王刚：阿里巴巴目前正在向全球广泛招募人工智能方面的人才，从2017年夏季开始，阿里将推出一项AI人才的校招计划，主要面向博士生群体，将涉及到计算机视觉、机器学习、NLP、图形图像、语音交互等技术方向。

新智元：在人工智能技术方面，阿里的人才计划是怎样的？

王刚：今年3月，阿里巴巴正式启动代号“NASA”的计划，面向未来20年组建强大的独立研发部门，建立新的机制体制，覆盖人工智能、机器学习、芯片、IoT、操作系统、生物识别这些核心技术领域。

在人工智能领域，阿里很多业务都早已实现应用，比如以图搜图、活体检测、阿里小蜜（语音处理），ET医疗大脑、ET工业大脑、无人商店、天猫精灵等均是和人工智能紧密相关的应用场景，且这些应用的诸多技术均来自于iDST（Institute of Data Science & Technologies）和阿里人工智能实验室。

今天的阿里巴巴，处在一个技术创新的临界点，从工程技术到核心科技的临界点。阿里拥有十分复杂的业务场景，金融支付、电子商务、物流、新制造、新零售等，必然会存在世界级技术挑战，而若解决这些世界级难题，必须依靠世界级优秀人才。

基于这样的背景，阿里今年一方面公布了AIR（ Alibaba Innovative Research）计划，此计划的重点是推进计算机科学和技术领域内具有前瞻性和开创性的基础研究工作。同时，致力于推动学术和产业合作，在技术应用上取得实质性突破，建立技术生态系统。“AIR计划”的目标是让全世界的科技人才在追逐世界的同时，用科技创造新的未来。

新智元：王刚博士，感谢您接受新智元的专访。

王刚：谢谢新智元。

求报道、意见反馈、调戏小秘书 “老雅痞” 请加微信： xinyapi

微信扫描下面二维码，关注加速会微信公号，成长快人一步！

阿里AI Labs王刚：谷歌一个模型解决所有问题是不现实的