微软AI首席科学家邓力：AlphaGo激发全球人工智能进入一个新时代

钛媒体 • 9年前扫码分享

微软人工智能首席科学家、美国IEEE电气和电子工程师协会院士邓力

AlphaGo战胜李世石已经演变成火热的社会性事件。数据显示，仅网易新闻客户端就有1916万人观看了第一场直播，五场直播的观众超过6000万；在这场人机大战的第四场，李世石扳回一局时，央视中断正常的两会直播，临时插入比赛直播，上亿观众直接见证了人机世纪大战。

在此之前，IBM的超级电脑“深蓝”曾在1997年战胜当时的世界象棋冠军卡斯帕罗夫。接近20年后，谷歌的人工智能项目AlphaGo战胜世界排名第四的专业九段围棋顶级高手李世石，再次掀起了全社会对于人工智能的关注。

微软人工智能首席科学家、美国IEEE电气和电子工程师协会院士邓力认为，这一次人机大战有可能引发人工智能的新一轮热潮。

两场「人机大战」

两次人机大战时隔20年，这其中最重要的差别在于象棋与围棋的复杂度差异巨大。人工智能之所以能够首先战胜国际象棋冠军，在于国际象棋可以穷尽接近所有可能的招式，也就是说国际象棋的棋谱是有上限的，而围棋就不一样了。

围棋到底有多少种变化？通常有两种说法：一种是围棋棋盘上共有19*19=361个点，每一点都有黑、白、空三种情况，可能产生的局数为3的361次方；另一种是361的阶乘，即占完一个点位后，剩下还有n-1种可能。通常倾向于第二种算法，如果忽略一些围棋细则，按第二种算法计算，答案约为10的768次方。此外，普林斯顿的研究人员给出19x19格围棋的合法棋局数为10的171次方。无论哪一种，都接近无穷大。

邓力介绍说，他深入研究过AlphaGo的学术论文。AlphaGo的现有算法难点在于一方面要学习已有的围棋棋谱，另一方面还要探求非常大的、与取胜有关的未知棋谱。之后的算法有可能抛弃依靠已有棋谱进行有监督的学习（Supervised Learning），而直接仅仅依靠增强学习（Reinforcing Learning）。

换句话说，AlphaGo要通过自己与自己下棋，尽可能多的创造出有价值的未知棋谱。所以，围棋对于人工智能来说，相当于是求解一个开放式的问题；而国际象棋对于人工智能来说，则针对一个相对封闭式的问题。

人工智告别上一个时代

当AlphaGo战胜李世石的消息传来，深蓝之父Murray Campbell就此评价说：“这是人工智能一个时代的结束，棋类游戏已经基本结束，新的时代要开始了”。

AlphaGo所采用的主要人工智能算法之一叫做增强学习算法，把增强学习算法用于优化深度神经网络（deep neural nets），并且与之前主流的有监督学习相结合。机器学习算法大致可以分为三种：监督学习（如回归、分类）、非监督学习（如聚类、降维，也可用于分类和回归但尚未获得成功）和增强学习。增强学习算法已经有20多年的历史了，最初是受行为心理学影响而产生的机器学习算法。增强学习主要关注的是智能体（agent）如何在环境中通过采取一系列行动，获得最大累积回报的自学习策略。

增强学习算法主要从任意初始状态开始，通过与外部环境的持续交互，以自己不断试错和累积回报来获得最佳学习策略，在这个过程中外界不给予直接指导（监督），外部环境的反馈只局限于间接的、通常是远距离的回报（reward）。举例来说，训练室内机器人完成某个任务，在这个过程中人类并不干涉，只有当机器人接近完成任务时才给予正回报。所以，增强学习算法更接近生物学习的行为特征，具有探索未知问题的能力，可以获得更高的智能。

根据美国Wired网站长期跟踪谷歌的记者Cade Metz的报道，AlphaGo前期通过一个已知职业棋手的3000万步数据库进行训练，在获得相当的熟练度后，AlphaGo开始用增强学习算法与另一个AlphaGo程序相互博弈，探索未知的但与取胜有关的棋局，用以培养自己的“智能”。

新一轮人工智能呈现什么特点？

作为机器学习，人工智能和语音语言信号处理专家，邓力长期投身于语音识别研究。他在自动语音与说话者识别、口语识别与理解、语音-语音翻译、机器翻译，图像和多模态信息处理，大数据深度分析等领域做出过重大贡献，并凭借在深度学习与自动语音识别方向做出的杰出贡献荣获2015年度IEEE信号处理技术成就奖。

邓力向钛媒体介绍说，过去以语音识别和图像识别为主的人工智能研究，有一个高度成功的主流方法，即“有监督的深度神经网络”，这是因为，语音和图像识别问题都可以用深度学习的高度泛化能力去穷尽所有可能。有监督的深度神经网络已历经了好几年的研究与确认，被认为是能够解决语音和图像识别的最有效的工具。

基本上到2012年的时候，把有监督深度神经网络用于语音识别就已经成功获得突破。当时，微软研究院全球院长Rick Rashid在天津成功演示了一个全自动同声翻译系统，实时把英文演讲翻译成中文并以中文语音输出。这个演示中语音识别部分采用了有监督学习的深度神经网络工具，最先由邓力和他在微软的同事于2009~2010间与多伦多大学的Geoffrey Hinton 教授合作开发。

在这之后，研究语音识别就稳步进入了有监督的深度学习时代。而当2014年1月谷歌4亿欧元收购DeepMind以后，邓力开始注意到DeepMind的增强学习算法路线。

DeepMind通过一个巧妙的思路实现了增强学习算法，因为增强学习算法是为了探索未知的问题，这里就涉及到计算资源、计算机技术、可用数据等多方面的限制。当谷歌收购了DeepMind后，对其进行了大量的投入。基于整合的有监督和增强性深度学习以及Monte Carlo 树搜，谷歌DeepMind成功开发了AlphaGo。

从2014年开始，邓力和他领导的团队开始了对增强学习算法的研究，特别是把增强学习算法用于深度循环神经网络的优化以及微软内部一系列的应用。当AlphaGo打败了李世石后，邓力认为这很可能将激发国际巨头对于人工智能的进一步的投资。尽管如此，邓力认为大公司不会形成对人工智能的垄断，特别是Elon Must等近期投入10亿美元成立非盈利性组织OpenAI，专门研究人工智能技术并答应无偿公开。

所以，未来全球不仅将掀起新一波人工智能热，而且也有望涌现一批人工智能创业公司。这些创业公司将受益于谷歌、Facebook、微软、百度与IBM等公开的开源机器学习算法，以及OpenAI将不断放出的各种人工智能技术，还可以拿到只有小公司才能掌握的特殊数据，从而开发全新的人工智能应用。

“人工智能未来两三年又是一波！”2016年3月26日，长期居住在美国西雅图的邓力将来到北京，参加由阿尔法公社、钛媒体、ITValue、PMCAFF联合主办的人工智能创业研讨活动，届时您将有机会亲自聆听微软人工智能首席科学家对于人工智能未来的观点以及探讨可能的创业机会。

参与「人工智能创业研讨」

请点击报名链接：http://www.tmtpost.com/event/2016/Alpha/