深度长文|人工智能过去60年沉浮史,未来60年将彻底改变人类
1956年的夏天,一场在美国达特茅斯(Dartmouth)大学召开的学术会议,多年以后被认定为全球 人工智能 研究的起点。2016年的春天,一场 AlphaGo 与世界顶级围棋高手李世石的人机世纪对战,把全球推上了人工智能浪潮的新高。
经历了两次起伏,人工智能现在进入了全球爆发的前夜。仅在中国就有上亿人直接或间接地观看了AlphaGo与李世石的比赛,而在2016年初,还有IBM在全球大举推广基于IBM Watson的认知计算,Watson的前身就是1997年打败了国际象棋大师卡斯帕罗夫的“深蓝”。
中国有句古话叫做60年一轮回。然而对于人工智能来说,往后的60年并不仅是轮回,而是新生。前60年的人工智能历程,可以用“无穷动”来形容;后60年的人工智能发展,可以用“无穷大”来期许。
“无穷动”是一首意大利小提琴名曲,卡耐基·梅隆大学人工智能教授邢波用这个名字命名自己研究小组研发的新一代分布式机器学习系统。“无穷动”又是一种寓意,代表了在过去60年间甚至到更远的古代,人们对于智能机器永无止境的想象以及去实践的冲动。
亚里士多德曾说过,如果机器能干很多活,岂不能让人类解放出来。《星球大战》《黑客帝国》《人工智能》等科幻电影,激发了一代又一代学者和实业家,前伏后继地投入到人工智能的研究中。AlphaGo算法的主要发明人,就是受了“深蓝”的影响而加入AI的行列。
在前60年的发展中,人工智能研究也取得了阶段性成果,特别是有监督 深度学习 在自然语言理解、 语音识别 、 图像识别 等人工智能基础领域,都已经发展到了成熟阶段。接下来,就是AlphaGo开创的无监督深度学习的未来——摆脱人类“监督”的增强学习。
实际上,随着计算机的发明,人们一直在探讨,这到底会导致什么样的人工智能?一种预见是可以产生功能性的人工智能,这就是今天有监督深度学习所广泛取得的成果。还有一种观点是人工智能可以模仿人的思维和感情活动,这就是无监督深度学习将要开创的未来。
当智能机器可以自己张开眼睛看世界,通过自主探索世界来获得智能的话,未来可能出现的变化就是“无穷大”了。从“无穷动”到“无穷大”,2016年注定是一个精彩之年。
上篇:前60年“无穷动”的韵律
人工智能头60年的发展,就是在起起伏伏、寒冬与新潮、失望与希望之间的无穷动韵律,寻找着理论与实践的最佳结合点。
从清华大学毕业后,邢波到Rutgers大学和伯克利攻读研究生,之后到卡耐基·梅隆大学成为一名人工智能领域的教授。卡耐基·梅隆是全球重要的人工智能研究基地,很多原创性成果都出自这所大学。
邢波在卡耐基·梅隆大学成立了一个人工智能小组SAILING LAB,试图在人工智能各个方面产生突破,理论研究包括概率图模型的最大似然和最大间隔学习、非参数空间高维推理、非稳态时间序列分析、非参数贝叶斯化推理等,应用研究包括计算生物学、群体遗传学、基因组学、社交网络和社交群体、互联网级文本挖掘和自然语言处理、计算金融等。
2016年3月19日,在AlphaGo战胜李世石后的第4天,邢波随着《未来论坛》之理解未来系列讲座走进了京东集团。邢波回顾了全球人工智能历程,人工智能作为一个科学和工程领域,得益于20个世纪国际科学、计算机科学、信息论、控制论等很多科学发展的交汇点。人工智能的研究基于一个很基本的假设,即认为人的思维活动可以用机械方式替代。
60年前的全球人工智能大会
谈到人工智能,就不能不提到鼻祖式人物:图灵。1936年,英国数学家、逻辑学家阿兰·麦席森·图灵(1912~1954)提出了一种抽象的计算模型——图灵机(TuringMachine),用纸带式机器来模拟人们进行数学运算的过程,图灵本人被视为计算机科学之父。
1959年,图灵发表了一篇划时代的论文《计算机器与智能》,文中提出了人工智能领域著名的图灵测试——如果电脑能在5分钟内回答由人类测试者提出的一系列问题,且其超过30%的回答让测试者误认为是人类所答,则电脑就通过测试并可下结论为机器具有智能。
图灵测试的概念极大影响人工智能对于功能的定义,在这个途径上,卡耐基·梅隆两位科学家A.Newell和H.Simon的“逻辑理论家”程序非常精妙地证明了罗素《数学原理》52道中的38道。Simon宣称在10年之内,机器就可以达到和人类智能一样的高度。
第一批人工智能探索者找到共同的语言后,于整整60年前的1956年,在美国达特茅斯大学开了一次会,希望确立人工智能作为一门科学的任务和完整路径。与会者们也宣称,人工智能的特征都可以被精准描述,精准描述后就可以用机器来模拟和实现 。 后来普遍认为,达特茅斯会议标志着人工智能的正式诞生。
人工智能第一次浪潮和寒冬
达特茅斯会议推动了全球第一次人工智能浪潮的出现,即为1956年到1974年。当时乐观的气氛弥漫着整个学界,在算法方面出现了很多世界级的发明,其中包括一种叫做增强学习的雏形(即贝尔曼公式),增强学习就是谷歌AlphaGo算法核心思想内容。现在常听到的深度学习模型,其雏形叫做感知器,也是在那几年间发明的。
除了算法和方法论有了新的进展,在第一次浪潮中,科学家们还造出了聪明的机器。其中,有一台叫做STUDENT(1964)的机器能证明应用题,还有一台叫做ELIZA(1966)的机器可以实现简单人机对话。于是,人工智能界认为按照这样的发展速度,人工智能真的可以代替人类。
第一次人工智能冬天出现在1974年到1980年。这是怎么回事呢?因为人们发现逻辑证明器、感知器、增强学习等等只能做很简单、非常专门且很窄的任务,稍微超出范围就无法应对。 这里面存在两方面局限:一方面,人工智能所基于的数学模型和数学手段被发现有一定的缺陷;另一方面,有很多计算复杂度以指数程度增加,所以成为了不可能完成的计算任务。
先天缺陷导致人工智能在早期发展过程中遇到瓶颈,所以第一次冬天很快到来,对人工智能的资助相应也就被缩减或取消了。
现代PC“促成”第二次人工智能寒冬
进入20世纪80年代,卡耐基·梅隆大学为DEC公司制造出了专家系统(1980),这个专家系统可帮助DEC公司每年节约4000万美元左右的费用,特别是在决策方面能提供有价值的内容。受此鼓励,很多国家包括日本、美国都再次投入巨资开发所谓第5代计算机(1982),当时叫做人工智能计算机。
在80年代出现了人工智能数学模型方面的重大发明,其中包括著名的多层神经网络(1986)和BP反向传播算法(1986)等,也出现了能与人类下象棋的高度智能机器(1989)。此外,其它成果包括能自动识别信封上邮政编码的机器,就是通过人工智能网络来实现的,精度可达99%以上,已经超过普通人的水平。于是,大家又开始觉得人工智能还是有戏。
然而,1987年到1993年现代PC的出现,让人工智能的寒冬再次降临。当时苹果、IBM开始推广第一代台式机,计算机开始走入个人家庭,其费用远远低于专家系统所使用的Symbolics和Lisp等机器。 相比于现代PC,专家系统被认为古老陈旧而非常难以维护。于是,政府经费开始下降,寒冬又一次来临。
那时,甚至学者们都不太好意思说是从事人工智能研究的。人们开始思考人工智能到底往何处走,到底要实现什么样的人工智能。
现代AI的曙光:新工具、新理念和摩尔定律
如何在有限的资源下做有用的事情,这是人工智能一直以来的挑战。一个现实的途径就是像人类造飞机一样,从生物界获得启发后,以工程化方法对功能进行简化、部署简单的数学模型以及开发强大的飞机引擎。
现代AI的曙光发生在这个阶段,出现了新的数学工具、新的理论和摩尔定律。 人工智能也在确定自己的方向,其中一个选择就是要做实用性、功能性的人工智能,这导致了一个新的人工智能路径。 由于对于人工智能任务的明确和简化,带来了新的繁荣。
在新的数学工具方面,原来已经存在于数学或者其他学科的文献中的数学模型,被重新发掘或者发明出来。当时比较显著几个成果包括最近获得图灵奖的图模型以及图优化、深度学习网络等,都是大约在15年前重新被提出来,重新开始研究。
在新的理论方面,由于数学模型对自然世界的简化,有着非常明确的数理逻辑,使得理论分析和证明成为可能,可以分析出到底需要多少数据量和计算量来以得期望的结果,这对开发相应的计算系统非常有帮助。
在更重要的一方面,摩尔定律让计算越来越强大,而强大计算机很少被用在人工智能早期研究中,因为早期的人工智能研究更多被定义为数学和算法研究。当更强大的计算能力被转移到人工智能研究后,显著提高了人工智能的研究效果。
由于这一系列的突破,人工智能又产生了一个新的繁荣期。最早的结果即为1997年IBM深蓝战胜国际象棋大师。在更加通用型的功能性方面,机器在数学竞赛、识别图片的比赛中,也可以达到或者超过人类的标准。
人工智能的繁荣也促进了 机器人 的进步,包括把人工智能原理用在机器狗的设计上。无论是人工智能狗还是无人车驾驶,都不是用编程方法写出来,而是通过一套学习算法在模拟器中不断的走路和开车,让机器自己产生行为策略,这是人工智能和原先控制论最不同的地方。
2011年,Facebook的挑战
在2011年的时候,邢波迎来做教授的第一次学术休假,美国教授大概每6年可以做一次休假。邢波选择去了一家很年轻的公司做客座教授,这就是当时的Facebook。那个时候只有500人的Facebook在斯坦福大学的仓库里搭起了自己的实验室,当时Facebook提出希望连接上亿用户,也希望能够运用人工智能投放有价值的广告以增加公司收入。
Facebook当时的目标为在不久的将来把用户从1亿增长到10亿,邢波的任务就是帮助Facebook实现这个愿景。作为Facebook的第一个客座教授,他的第一个任务要把用户在社交网络里连接起来,然后把这种连接投射到社交空间中,从而做社群检测并把社群检测用来实现用户分组和特征化。
这个任务并不难,可以通过混合成员随机区块模型来实现,这是2011年最好的处理网络数据的AI算法。但其中有一个问题,即计算的复杂度呈平方级现象,即用户数每增加10倍就需要100倍的CPU和存储,因此单机最多处理1万人,这是当时最大问题。
邢波于是通过研究算法模型实现计算加速,包括在社交网络抽取比“边”更强大的特征叫做“三角形”,模型也从混合块模型升级到混合三角模型。混 合算法实现了显著的革新,计算复杂度在不断下降。 当时的研究成果被用于全球电影明星网络研究,大约在100万人左右的网络,可实时展示人们在模型驱动下不断在社交空间找朋友并落入到不同的社交群。
100万的网络、几亿条边、500多亿特征数,用10核单机在40分钟内完成了模拟,这也是惊人的成果。
但问题来了,Facebook的目标用户不是100万,而是1亿用户。100万用户模拟只用了一台笔记本电脑,而当时在Facebook的机房里有1000台主机,上面跑着可运行并行程序Hadoop系统。当时邢波把任务进行了并行化处理,希望能在0.6分钟内处理1亿用户。可结果并不理想,一个星期后依然没有结果。
AI对于传统计算架构的挑战
到底发生什么事情呢?原来,用Hadoop进行并行计算的时候,其原理为把计算任务分解为若干子任务,然后在不同机器上运行不同的子任务,当每一个子任务都完成后再通过所有子任务之间的一次握手通信,宣告这次并行计算的结束。
Hadoop起源于1945年的冯·诺依曼架构,该架构也是现代计算机的原型,包括中央处理器、记忆存储器、输入和输出等,通过硬件和软件实现简洁的桥接,而不用对每个晶体管和电子管做局部编程。在20世纪60年代就已经有人看到冯·诺依曼的局限,当有更大的任务或者速度有更高要求,需要让很多台机器一起执行同一个任务,于是就有了早期的并行计算系统。
后来,莱斯利·兰伯特(LeslieLamport)创造了BSP桥接模型(1980~1990s),通过简单抽象把计算和通信分成了两个不重合的项,每个项只完成各自的计算或通信任务。Hadoop(2000s)就是这一思路的优秀代表,它可以用不同的机器以并行方式执行子任务,子任务完成后再通过握手通信完成计算。
Hadoop现在已经成为主流的运算平台,对传统计算程序像数据库、统计数据归纳等都相当有效。BSP桥接模型的一个最近突破就是Spark(2010s),它与Hadoop的区别在于,Hadoop用硬盘作为存储单元而Spark用内存作为存储单元,但二者的通信原理是一样的。
于是,在Hadoop机制下,整个并行计算的瓶颈出现在机群里最慢的那台机器。而在实际情况中,总会出现最慢的一台机器。因为整个机群是共享计算资源,同期还有其它计算任务跑在机器上争抢计算资源,此外甚至机房的温度不均匀也会影响机器的速度。
装了Hadoop的千台机器很好地支持Facebook当时其他的业务,包括搜索业务和存储业务。为什么到了人工智能业务就不行了呢? 原因是人工智能计算有它的独特性,人工智能是迭代式反复读取数据和刷新模型的方式,与传统计算模式有很大的不同,这是人工智能发展遇到的又一瓶颈。
从人工智能角度来讲,需要完成大型的计算任务,光有好的数学模型或算法还不够,还需要强力计算引擎支持,而且这个计算引擎跟原来的不一样。这就是当时邢波在Facebook机群上运行人工智能程序,每一次迭代接近结束进入下一个迭代时,总会出现已经完成99%还有1%的计算没有完成并且拖延一个星期的情况。
新的AI计算引擎
人工智能采用了渐进迭代方式,迭代速度和迭代效率与数学方程难度有关。在 大数据 和复杂任务情况下,每一次计算中心都要把大数据遍历刷一遍,1000次迭代就要刷1000遍。如果深度学习模型有几十亿参数,意味着每次迭代都要把所有参数刷新一遍。而当数据和模型同时放大时,这个任务就变得无比困难。
传统计算架构下的BSP通信协议,就是先计算再通信、再计算再通信,这是实现计算一致性基本保障之一。理论上假设这样的代价为零,但在工程实际系统中这并不是一个零代价的工程,各种问题使得机群不同步,要花很多时间等待计算的一致性。
邢波通过自己在Facebook的经历,发现人工智能运算和传统计算非常不一样,传统计算由指令集构成,执行指令目的就是执行程序,执行的过程中不能出错。这是传统执行计算任务经典特征,所有操作系统都是围绕着这个目的来优化,包括容错性和通信有效性等。
人工智能的运算也是由指令集构成,但执行指令集的执行只是一个过程而不是目的,目的是优化算法。 就像爬山一样,目的是爬到山顶。传统计算体系是严格设定登山路线,一步也不能出错,但人工智能则可以在中间出错,只要能到山顶。
2012年,邢波及其同事设计了一种新的参数服务器模型,这个框架下的核心概念,就是人工智能的计算任务不再像传统计算任务那样以精准性为前提,而是像执行救火任务的机群那样,其任务为“灭火”,至于如何达到火场只是一个手段。而且“扑火机群”还需要以机群为整体给上级一个简单的指挥界面,具体飞行细节则由飞行员们自行协调,这是人工智能的新观点。
基于这样一个目标,邢波及其同事开发了新的桥接模型——SSP有限异步模型。在有限异步模型下,运行机器服从中央指挥,但每个“战队”都有局限性自由度,总体目的是打赢仗。传统并行计算,需要很精准的协调;而完全异步模型下,每个机器各自为政,大部分不能协调实现共同目标。于是,邢波选择了第三条路线:有限异步模型。
邢波用有限异步桥接原理去构建参数服务器的编程界面,是一个分享内存的大规模编程界面,程序运行速度和精度都有了巨大的提升。而且这个系统并不是为某一个特定人工智能计算而设计的,更是一个公用的计算平台模型,在设计时考虑了整个人工智能程序的普遍共性。这个系统也有非常灵活的容错及通讯管理机制,最后的结果就是系统功效的巨大提升。
2013年,邢波研究小组取得了另一个突破。当训练巨大模型的时候,需要把模型分解到不同机器上,每个机器上完成一个子任务,子任务间必须有效通信,才能保证整体任务不失败。于是就设计了一个动态调度器Strads,其原理像拉小提琴十个手指一样,虽然很快速且每个手指执行异步异时的动作,但最终是为了同一首小提琴曲。
最后结果不仅可以保障大型模型程序在很细颗粒度下的正确性,有时候还能实现令人吃惊的加速收敛曲线效果,这是传统的完全同步运行程序无法达到的结果。
人工智能“无穷动”
到了2013年年底的时候,卡耐基·梅隆大学对这个分布式机器学习系统做了开源发布,并命名为Petuum。这个名字源于意大利小提琴帕格尼尼的著名小提琴曲Moto Perpetumm(无穷动)。这首以快著称的小提琴曲,共3005个音符、演奏者手指起落平均每秒达16次之多,曲子优美而紧凑,表达了Petuum的设计思想。
Petuum从2013年12月发布0.1版本后,到2015年7月的1.1版本,一共发布了5个版本。现在Petuum解决了1亿个网络节点的挑战,只用5台Petuum机器就在37小时内处理完了1亿个节点,而1000台Hadoop机群预期可能要跑400个小时。
Petuum也在不断的发展,包括多任务资源调配问题。如同交响乐队让不同乐器表现不同的节奏与声音,Petuum开发了面向多任务的灵活资源配置系统。 在AI人工智能程序部署方面,Petuum以容器的方式对程序进行了封装,可以在不同硬件环境中自如运行,这是即插即用的设计思路。整个Petuum系统为轻量级解决方法,轻便可用、方便调试、易于维护,可以说是新一代数据中心操作系统。此外,Petuum还可运行在AWS及谷歌公有云中。
“Petuum就是一个交响乐队,可以有不同的组合,根据需要演奏出不同的风格,一个好的操作系统应该有这样的灵活性。”目前,系统Petuum处在多次发布中,有规律发布开源的软件,包括平台和工具库,工具库有很多常用人工智能的软件,包括深度学习、主题模型等等,可登陆Petuum.org。
Petuum是从软件优化角度对Hadoop和Spark等分布式计算系统进行了优化,在另外一条线上还有其它的科研机构试图从硬件角度彻底解决冯·诺依曼架构的瓶颈,这就是神经元芯片以及更远期的量子计算。
总之,人工智能头60年的发展,就是在起起伏伏、寒冬与新潮、失望与希望之间的无穷动韵律,寻找着理论与实践的最佳结合点。Petuum的出现,为头60年划上了一个相对完美的句号,在于Petuum是在软件层面的革新,底层依然使用CPU和GPU组成的标准化服务器机群,这在梦想与现实之间找到一个平衡点。
中篇:人工智能的第一波商业化浪潮
基于自身转型的需求和庞大的企业经济体量,IBM正在真正拉动全球第一次人工智能商业化浪潮。
尽管人工智能已经有了60年的历史,但是人工智能的规模化商业浪潮却一直迟迟没有到来。之前,尽管有微软、谷歌、Facebook等大公司不断投资人工智能技术,但大多把研究成果用于自身业务的优化与效率提升。因此,可以说2016年IBM在全球范围内倾全力推出的“认知商业”,才是真正意义上的人工智能商业化第一波浪潮。
早在1960年4月25日,在一份给IBM管理者的备忘录中,当时的首席执行官小沃森谈及IBM面临的问题是制造“会思考的机器”。从大型机到小型机、从PC到POWER服务器、从“深蓝”到“IBM Watson”,IBM对“会思考的机器”的思考从未停止过。尤其自20世纪90年代人工智能研究陷入低潮以来,IBM是少数坚持投入人工智能研究的企业。
作为世界上第一家百年IT企业,IBM坚持每年研发经费投入超过60亿美元。自从近年来遭遇转型困境后,人工智能研究成果的商业化自然成为了IBM的首选。
新一代“IBM Watson”
2016年3月1日,IBM大中华区董事长陈黎明在IBM论坛2016上,宣布IBM公司105年的历史上第3个代表商业战略的品牌“认知商业”落地中国。此前早在1997年,IBM就描绘了“电子商务”的愿景;2008年,IBM推出了“智慧的地球”。
“认知商业”基于IBM推出的认知计算,其核心为新一代IBM Watson技术及Watson APIs。这个命名实际上来自IBM创始人Thomas J.Watson老沃森的姓氏,而IBM Watson则是继“深蓝”之后的下一个超级认知计算平台。提起“深蓝”,可谓无人不知。1997年5月1日,国际象棋大师卡斯帕罗夫最终以25:35的比分输给了IBM RS/6000SP“深蓝”计算机,举世震惊。
由于象棋是高度结构化游戏,实际上“深蓝”并不需要太高的学习能力。有关资料显示,1997年版的“深蓝”每秒钟可以计算2亿步,存储了100多年来优秀棋手对局的200多万棋局。在“深蓝”成功后,IBM研究院进而挑战人工智能的深度问答(Deep Q&A),这是人工智能的一个重要分支,具有极为广阔的应用空间。
IBM Watson最早现身在2011年2月美国老牌益智节目“危险边缘”(Jeopardy!),与节目史上最强的两位答题高手一较高下,并最终以优异的表现打败了人类选手。从2004年提出挑战“Jeopardy!”的构想,到2011年IBM Watson真正打败“Jeopardy!”,中间差不多经历了6年的时间。为什么会这么困难?
Watson并不是简单的机器学习系统,当IBM的研究员开始尝试构造Watson时,发现传统的机器学习算法行不通。传统的机器学习算法先归纳知识,把知识形成规则,再让机器根据规则进行响应。这不足以让Watson在“Jeopardy!”节目中胜出,由于数据量过于庞大,IBM研究员意识到必须让Watson能够自行学习知识而尽量减少人工干预。
经过学习和训练,Watson的Deep Q&A系统能够从原始信息中自动抽取知识,对知识进行分类并且能够分析和理解自然语言。 如此,Watson就能够像人类一样学习,并从已经发生的事件进行推理和总结经验 。 由于这样的任务已经超出了前代超级计算机的能力,IBM的研究员从头设计了IBM Watson系统,包括软件和硬件体系。
2011年打败“Jeopardy!”的时候,IBM Watson是由10台IBM商用服务器Power750组成的计算系统。2014年初的时候,IBM Watson的体积已由1个卧室缩小到3个披萨盒子那么大,运算速度是之前的24倍,智能水平是之前的24倍。
IBM Watson的商业化进程
在小沃森的备忘录里,强调“计算机永远不会取代人的主动性,也不会取代人类的创造性思维。”计算机就是要把人类从无意义的、重复性的思维模式中解放出来。因此,在IBM Watson的商业化推广中,IBM提出了“认知计算”,强调的人与机器共存。在认知计算时代,并不是机器取代人类,而是人机协作共同创造更好的结果。
2014年1月12日,IBM宣布将投资逾10亿美元,创建一个新的IBM Watson业务集团,基于 云计算 交付模式,实现认知计算技术的商业化,从这一点开始标志着IBM又一次拉开了世纪转型。
在创建IBM Watson业务集团的同时,IBM公布了几项基于Watson的新功能:IBM Watson Discovery Advisor、IBM Watson Analytics以及IBM Watson Explorer等,分别用于大数据探索、基于自然语言的数据可视化分析和应用程序开发框架。目前Watson Analytics在全球已经拥有超过100万注册用户,2016年3月在大中华区刚推出就获得了近2万个注册用户。
IBM Watson业务集团总部位于纽约的“硅巷”(Silicon Alley),总部大楼内为创业者提供了相关的孵化器,也为IBM客户提供了客户解决方案中心用于体验认知技术,还有一个设计实验室来帮助IBM客户和合作伙伴持续提升认知应用及服务的用户体验。实际上,在宣布的10亿美元投资中,还包括了1亿美元的风险投资,用于构建IBM Watson生态圈。
为了扩展可用的Watson数据源,IBM Watson Content Marketplace结合了各种独特且多样化的第三方数据,其中的数据和信息可被IBM客户、合作伙伴、开发者和其它机构用于Watson支持的应用和服务中。迄今为止,该市场接入了Wikivoyage、疾病控制中心、Cancer.gov、美国临床肿瘤学会等多家医疗机构的合作内容,以及美联社、Barchart.com、晨星机构(Morningstar)、RxWiki和WAND等新闻报道档案、健康管理、金融服务、肿瘤学、医药、工程及其它领域的知识库。IBM还与Twitter、Facebook、苹果等公司建立战略联盟,以便能够存取相关的数据。
IBM专门推出了AlchemyData,通过聚合超过7.5万个来源的新闻和博客内容,利用自然语言处理(NLP)加以强化,让Watson应用能够采集市场信号、实现业务流程自动化和趋势分析。IBM后来收购的AlchemyAPI,就是一家提供人工智能文本和图像分析服务的前沿公司。
2015年3月,IBM宣布将向物联网投资超过30亿美元。利用这一投资,在2015年10月IBM公司透露了收购The Weather Channel的B2B、移动和云业务的计划,并于2016年1月完成收购,IBM将向包括中国、印度、巴西、墨西哥和日本在内的5大新兴市场扩展weather.com。气象数据在业务运营、市场营销、风险管理等商业领域,有着广泛的价值。
2015年4月IBM成立Watson Health,加强在医疗和健康行业的布局,先后收购了包括Explorys(一家可以查看5000万份美国患者病例的分析公司)、Phytel(处理各类健康数据及提供数据分析的云软件公司)、医疗影像公司Merge Healthcare公司。其中,Merge的技术平台普遍应用在7500余家美国医院及全球众多著名临床研究机构和制药公司。
2016年刚开年,IBM就宣布进行了郭士纳以来一次大型的组织调整。这次调整涉及了IBM的三大部门——全球行业事业部门、整合认知解决方案部门以及云计算部门,笔者认为其中的商业逻辑将会是全球行业事业部门梳理行业用户需求、整合认知解决方案部门根据需求开发认知解决方案、云计算部门提供平台支持。
2016年3月1日,IBM向中国市场推出“认知商业”品牌,在中国市场展开了铺天盖地的宣传推广活动。3月15日,IBM宣布基于认知计算的IBM营销云落地中国,特别加入了对于微信的支持。
算法经济时代的到来
IBM正在转型为一家认知计算公司,其背后的大逻辑是全球正在进入一个算法经济时代。自去年以来,Gartner就在多份报告中强调,算法连通了人、事物、业务及信息,将创造全新的商业价值。在未来,算法将成为企业的核心资产,代替企业把大数据转化为商业洞察、自动化业务流程以及差异化产品与服务。一句话,算法将统治世界。
在一个算法经济时代,人工智能算法仅是众多算法中的一种。IBM董事长Ginni Rometty在去年10月的Gartner全球峰会上说,Watson并不仅仅是人工智能,人工智能算法是Watson背后32个引擎中的一个。实际上在过去的几年间,除了推动Watson认知计算的商业化之外,IBM一直在不余遗力的收购商业算法公司,纳入到IBM整体的算法体系。
IBM于2011年花费近4亿美元收购了一家叫做Algorithmics的公司,其业务就是用商业算法来计量金融交易的风险。Algorithmics参与了国际巴寒尔协议的咨询与建议,不断跟踪巴寒尔协议进展并把新的规范编入算法中,再把算法卖给各国的银行用于金融风险监控。据有关统计,在收购Algorithmics之前,IBM就已经花费了140亿美元用于收购25家分析公司。
当然,在整个IBM算法体系中,Watson认知计算是“皇冠上的明珠”。IBM Watson业务集团高级副总裁Michael Rhodin说:“在IBM 100年的历史上,Watson是我们最重要的创新之一。”IBM董事长Ginni Rometty在去年10月的Gartner全球峰会上说,推动全球迈向“认知商业”时代,“这是我们的登月工程。”
在已经推出的Watson API中,包括:文本转语音API,历经12年的研发,最新加入的情商功能让文本转语音的时候能适应语境与情绪;语调分析器API,可对文本中的语调进行分析,获得更好的观察;情绪分析API,通过复杂的自然语言处理,感知外部环境中用户情绪的变化;视觉识别API,可以定制化适应不同企业的图像识别需求等等。据统计,Watson API每月被调用高达13亿次,并且还在快速增长。
目前已经有36个国家、17个行业的企业在使用Watson的认知技术,全球超过7.7万名开发者在使用Watson Developer Cloud平台,超过350家生态系统中合作伙伴及企业内部创新团队正在构建基于认知技术的应用、产品和服务,其中100家企业已将产品推向市场。
可以说,基于自身转型的需求和庞大的企业经济体量,IBM正在真正拉动全球第一次人工智能商业化浪潮。而在这次大浪潮之下,首先受益的将是商业智能算法公司,包括IBM、SAS、QLIK、Tableau等商业智能软件公司将迎来黄金时代。
下篇:未来“无穷大”的AI空间
增强学习算法更接近生物学习的行为特征,具有探索未知世界的能力。AlphaGo对增强学习算法的探索,打开了“无穷大”的大门。
AlphaGo战胜人类围棋高手李世石的事件,正好发生在60年这个时间节点上,可以说是全球人工智能界承上启下的里程碑式事件。简单说,AlphaGo的算法是前60年人工智能研究都很少触及的领域:增强学习,即无监督的深度学习,而前60年的主流算法为有监督的深度学习。
而在60年这个节点上,经过了1980年和2000年两次寒冬,全球人工智能界又迎来了第三次浪潮。这一次,随着前60年有监督深度学习算法的理论研究和工程化的成熟,以及硬件计算能力的大幅提升和成本的飞速降低,在云计算、大数据和移动互联网的融合推动下,人工智能在很多方面都有了突破性进展。
更为重要的是,除了微软、IBM等大公司外,谷歌、Facebook、百度等互联网巨头纷纷向人工智能领域投巨资进行研发,各国政府也开始意识到人工智能是未来社会的战略制高点,甚至人工智能有可能成为未来社会的一部分。
承上启下的AlphaGo
当AlphaGo战胜李世石的消息传来,深蓝之父Murray Campbell就此评价说:“这是人工智能一个时代的结束。”
两次人机大战时隔20年,这其中最重要的差别在于象棋与围棋的复杂度差异巨大。人工智能之所以能够先战胜国际象棋冠军,在于国际象棋可以穷尽接近所有可能的棋局,而围棋就不一样了。围棋棋局究竟有多少种变化?普林斯顿的研究人员给出了一个最小的数字:19x19格围棋的合法棋局数为10的171次方,这个数字接近无穷大。
根据美国Wired网站长期跟踪谷歌的记者Cade Metz的报道,AlphaGo前期通过一个已知职业棋手的3000万步数据库进行训练,在获得相当的熟练度后,AlphaGo开始用增强学习算法与另一个AlphaGo程序相互博弈,探索未知的但与取胜有关的棋局,用以培养自己的“智能”。围棋对于人工智能来说,相当于是求解一个开放式的问题。
机器学习算法大致可以分为3种:监督学习(如回归、分类)、非监督学习(如聚类、降维)和增强学习。人工智能前60年,主要通过有监督的深度学习算法,解决语音识别、图像识别、自然语言理解等总样本量有上限的相对“有穷大”问题。
增强学习算法主要从任意初始状态开始,机器与外部环境持续交互,通过不断试错和累积回报来“学习”最佳策略,在这个过程中外界不给予直接指导(监督),只给予间接的或是远距离的回报(Reward)。举例来说,训练室内机器人完成某个任务,在这个过程中人类并不干涉,只有当机器人接近完成任务时才给予正反馈。
换句话说,增强学习算法更接近生物学习的行为特征,具有探索未知世界的能力。AlphaGo对增强学习算法的探索,打开了“无穷大”的大门。
语音识别走下神坛
微软是人工智能领域的另一巨头。微软人工智能首席科学家、美国IEEE电气和电子工程师协会院士邓力长期投身于语音识别研究,在自动语音与说话者识别、口语识别与理解、语音-语音翻译、机器翻译、图像和多模态信息处理等领域做出了重大贡献,凭借在深度学习与自动语音识别方向的杰出贡献,获得了2015年度IEEE信号处理技术成就奖。
邓力表示,有监督的深度神经网络已历经了研究与确认,被认为是能够解决语音和图像识别的最有效的工具。基本上到2012年的时候,有监督深度神经网络用于语音识别就已经成功取得突破。当时,微软研究院全球院长Rick Rashid在天津成功演示了一个全自动同声翻译系统,实时把英文演讲翻译成中文并以中文语音输出。
Rick Rashid演示中的语音识别部分采用了有监督学习的深度神经网络工具,最先由邓力和他的微软同事于2009~2010间与多伦多大学的Geoffrey Hinton教授合作开发。如今,微软的语音识别技术已经工程化并广泛用于微软的多个产品中。
作为中国的国家队,科大讯飞在智能语音技术领域有着长期的研究积累,并在语音合成、语音识别、口语评测、自然语言处理等多项技术上有着国际领先的成果。2008年6月,科大讯飞参加NIST(美国标准技术研究院)举办的说话人识别SRE大赛,就在3项关键指标中,获得两项第一、一项第三、综合评比第一的好成绩。
科大讯飞是中国唯一以语音技术为产业化方向的“国家863计划成果产业化基地”、“国家规划布局内重点软件企业”、“国家高技术产业化示范工程”,并被原信息产业部确定为中文语音交互技术标准工作组组长单位,牵头制定中文语音技术标准。
基于自主知识产权的智能语音技术,科大讯飞已推出从大型电信级应用到小型嵌入式应用,从电信、金融等行业到企业和消费者用户,从手机到车载、从家电到玩具等不同应用场景的多种产品,还发布了“讯飞语音云”平台。 目前,科大讯飞已占有中文语音技术市场70%以上市场份额,开发伙伴超过5000家,以讯飞为核心的中文语音产业链已初具规模。
计算机视觉逼近拐点
视觉识别是人工智能的一个重要研究领域,没有视觉识别能力的机器人无法真正与外界交互。2015年,在微软等大公司的推动下,计算机视觉已经逼近全面突破的拐点。
ImageNet是全球顶级的计算机视觉挑战赛,挑战赛项目之一是对1000类、120万张互联网图片进行分类,每张图片人工标注5个相关类别,计算机识别的结果只要有一个和人工标注类别相同就算对。对于该图片集,人眼辨识错误率大概为5.1%,目前只有谷歌和微软等个别参赛团队的算法能够达到低于5%的结果。
2015年12月10日,微软亚洲研究院视觉计算组在ImageNet计算机识别挑战赛中再次打破纪录,获得图像分类、图像定位以及图像检测全部三个主要项目的冠军,将系统错误率降低至3.57%。在计算机视觉识别领域,卷积神经网络(即为有监督的深度学习)是主要的算法。微软亚洲研究院视觉计算组首席研究员孙剑介绍说,他所带领的研究团队使用了高达152层的深层卷积神经网络算法,比以往任何成功的算法层数多达5倍以上。
而在另一方面,微软亚洲研究院硬件计算组与清华大学电子工程系一直在硬件加速领域合作了,从2013年开始双方一起研究怎样把深层卷积神经网络与 智能硬件 结合起来,其成果就是基于FPGA(可编程芯片)技术的A-Eye视觉芯片。微软的研究表明,高端GPU的图像处理能力是FPGA的2到3倍,但FPGA的功耗约是高端GPU的1/10,多个FPGA结合能以低功耗达到GPU的处理能力。
据微软亚洲研究院硬件计算组主管研究员徐宁仪介绍,A-Eye视觉芯片包括了一个基于软件的压缩算法和基于FPGA芯片的硬件实现,其本质上是通过软件压缩和定制的硬件加速,让计算机视觉识别算法适用于普通的智能终端。基于A-Eye技术的高性能智能视觉芯片,可以广泛用于智能安防、婴儿和老人看护、无人汽车和无人机等各种需要计算机视觉的领域。
目前卷积神经网络的图像识别能力有赖于输入的原始数据集,例如用花卉图像集训练出来的算法就只能识别花卉。基于Bing搜索引擎的大数据,接下来微软正在探索通用型视觉识别算法和工程化实现。一旦工程化实现了通用型视觉识别技术,智能机器张眼看世界的那一天就不远了。
开始探索情感算法
整个人工智能研究的起源,在于一个基本的假设,即能够用机械的方式模仿人类的思维。人工智能前60年,就在这个方向上不断地探索。但是,能否用机械的方式模仿人类的感情呢?
情感的表达远非“0”或“1”那么简单,就像人类的爱情绝非对与错那样绝对。 如何让机器理解人类的情感,又如何把情感与知识进一步结合,发展出全新的计算架构?情感计算前进之路更加艰难,直到微软“小冰”的出现。
最开始作为一个聊天机器人,微软小冰由微软亚洲互联网工程院开发,2014年5月29日,一代小冰开始了微信公测,在3天内赢得了超过150万个微信群、逾千万用户的喜欢。2015年8月20日,第三代微软小冰正式发布。2015年11月小冰发布了计算视觉功能,从此,小冰还能根据图片和视频与用户聊天。
然而,微软小冰的意义绝不仅仅是聊天机器人。微软全球执行副总裁沈向洋说,希望小冰成为一个慢慢融入人类社会的机器人、每一个用户的个人助手,而且是一个真正通过情感计算,理解用户、能够交流、能够沟通的人工智能机器人。在更深层上,微软小冰正在成为整个微软的人工智能基础设施,小冰的研究成果正扩散到微软产品与服务的方方面面。
初步统计,仅在微软亚洲研究院就有将近15个研究团队与负责小冰的算法研究,而包括以色列、纽约、休斯顿总部的微软研究院也正为小冰提供技术支持,涉及包括大数据、自然语言互动、计算机视觉、SR(语音识别)、TTS(文字到语音转换)、IoT等十几个领域。
想象一下,未来的家庭里将出现智能手表、智能音箱、智能电视机、智能冰箱、智能燃气表、智能玩具等多种智能设备,人们无法再通过一个个APP与这些智能设备沟通,就必须出现一个超级APP来管控所有的智能设备,微软小冰就有望成为这样的超级人机交互界面。
从底层芯片突破人工智能
2016年3月24日,在ARM公司与重庆市的战略合作签约仪式上,重庆市长黄奇帆在致辞中表示“一切人工智能的源头,集中在芯片上”。
黄奇帆市长可能没有意识到,这个论断也是未来60年人工智能发展的重要主题之一。在人工智能前60年的发展中,冯·诺依曼架构的瓶颈已经成为共识,在接下来的60年里,如何打破冯·诺依曼架构的瓶颈,已经成为各大公司和各国政府战略级的研究项目。
2014年8月,IBM研究院在《科学》杂志上介绍了一款名为“TrueNorth”神经元芯片,它从底层模仿了人脑结构而且用普通半导体材料就能制造出来。TrueNorth表面上看起来和普通处理器没有太大区别,它的核心区域内挤满了4096个处理核心,用来模拟超过百万个人脑神经元和2.56亿个神经突触。
2008年初,IBM TrueNorth研究项目获得了美国五角大楼高级计划研究局(DARPA)的5300万美元资助,DARPA认为这项研究有助于突破冯·诺伊曼计算机体系。TrueNorth由三星代工生产,具备量产的基础。基于TrueNorth芯片,IBM已经研发出了神经元计算机原型机,能够以低功耗实现更高准确率的图像识别、视频处理等人工智能关键性功能。
2015年4月,IBM研究院Mark Ritter在他的一篇博客中,介绍了IBM在量子计算机方面的研究突破。IBM的T.J.沃森研究实验室的一组科学家和工程师,正处于开发首台真正量子计算机的前沿。2015年4月,这个团队在科学杂志《Nature Communications》(《自然通讯》)上发布了一篇重要的论文,介绍了在实现可行性量子计算机中的两个关键性进展。
1981年在MIT召开的首届量子计算会议上,诺贝尔奖获得者Feynman挑战科学家们研究量子计算机。与现代计算科学的方式方法截然不同,在量子计算前提下,整个计算基础设施必须被重新想象与重构。除了IBM外,谷歌与微软也集合了科学家与高校的力量投入量子计算的研究。Mark Ritter认为,IBM有望首先实现量子计算机,而当前正在进入量子计算研究的黄金时代。
除了远期的神经元芯片和量子计算机外,NVIDIA、Intel、ARM等公司通过改进现有的芯片设计,把人工智能推进到底层芯片中。 NVIDIA的GPU被用于数据中心的大规模分布式机器学习环境,区别于传统CPU的Intel Xeon Phi更强调与CPU协同工作的GPU技术,而在移动互联网时代遥遥领先的ARM则在智能汽车、可穿戴设备、智能家电、物联网、工业装置等领域围绕未来人工智能场景来思考一代又一代的芯片设计。
ARM全球CEO Simon Segars在接受采访时表示,必须以更具成本效益的方式实现人工智能应用,只有当AI的成本和价格是普通人都能够承担时,AI才是真正达到了人们期望的目标。2016年3月,ARM宣布与台积电合作展开7nm芯片的研究,能以更高性价比广泛应用于智能终端和数据中心,预计在2017~2019年量产。目前,其它芯片公司还停留在10nm芯片的竞争。此外,ARM还加入了由Facebook发起的开源硬件项目OCP,该项目邀请开源硬件社区共同设计下一代数据中心的硬件设备,ARM就在与Paypal联合开发低功耗的定制化芯片。
创业者把AI扩散到社会的每一个角落
随着AlphaGo在全社会引起了巨大的反响,新一轮人工智能创业潮正在酝酿中。2016年3月26日,科大汛飞与专注天使轮投资的阿尔法公社宣布了AI领域联合天使投资计划,未来将在AI领域展开批量投资。科大讯飞高级副总裁江涛表示,在未来社会里AI将成为水和电一样的基础性资源,创业者们将把AI扩散到社会的方方面面。
为什么说AI将成为基础性社会资源?原因很简单,今天的互联网已经成为了基础性的社会资源。 而在 万物互联 网时代,物联网的规模远远大于今天的互联网。除了接入现有的互联网设备外,未来的物联网还将接入大量机器对机器(M2M)网络。在一个更为复杂和庞大的物联网前提下,人工智能就必须成为整个物联网的关键组成部分,进而成为基础性资源。
如果说过去的人工智能创业必须要在基础科研层面有所突破,如今这个壁垒已经被打破。谷歌、微软、Facebook等大公司以及卡耐基·梅隆大学、NYU等高校纷纷开源核心的机器学习算法,谷歌的TensorFlow、微软的DMTK、Facebook的Torch、卡耐基·梅隆大学的Petuum、加州伯克利分校的Caffe等,都提供了成熟的人工智能和深度学习算法模块。而IBM Watson认知计算云服务,本身就是以低价格向全社会大规模输出人工智能的能力。
值得注意的是,大公司开源出来的机器学习算法并不是简单的宣传“噱头”,而是货真价实的“干货”。微软开源版DMTK包含了目前世界上最大规模的主题模型和分布式词向量模型,DMTK还是分布式机器学习工具,让创业者很简单就在多机环境甚至是集群系统中部署大规模机器学习算法,大幅降低了机器学习创业的门槛。为什么这么多大公司都纷纷开源自己的核心机器学习算法呢?原因很简单:争夺下一个生态。
当然,也有人担心大公司将垄断未来的人工智能社会。2015年12月12日,特斯拉CEO Elon Musk在Twitter上宣布正式启动非盈利人工智能项目OpenAI。OpenAI是一个非营利性的人工智能研究公司,目标是“推动数字智能的发展,同时不被财务回报所限制,从而造福整个人类”。OpenAI筹措了10亿美元作为经费,从谷歌等公司挖来了人工智能专家,专门研究人工智能技术并答应无偿公开。显然,OpenAI是人工智能创业的又一剂强心针。
另一方面,人工智能创业迎来黄金期,还有另一个时代背景。微软亚洲研究院人工智能研究组首席研究员、卡耐基·梅隆大学博士生导师刘铁岩告诉记者,近年来全球机器学习领域的三大趋势包括更大规模的机器学习、更深度的机器学习以及更强交互性的机器学习,这些都是基于大数据与云计算的兴起。正是因为廉价的云计算和大数据技术,人工智能才有可能扩散到社会的每一个角落。