【CCCF】从机器人到谷歌大脑—人工智能6个智能等级

百度百家 • 8年前扫码分享

我是创始人李岩：很抱歉！给自己产品做个广告，点击进来看看。

来源：《中国计算机学会通讯》2016年第4期《专栏》

作者：刘锋

2015年以来，“人工智能”成为科技界和产业界最热门的词语。智能冰箱、智能空调、智能手表和智能机器人，还有谷歌、百度各自的人工智能大脑等新产品不断涌现。但与此同时，人工智能威胁论也甚嚣尘上。我们能否通过研究人工智能产品和系统的智商发展水平并与人类智商进行对比，从而为解决人工智能威胁论问题寻找定量的分析方法呢？

人工智能定量评测目前面临两个重要挑战：第一，人工智能系统目前没有形成统一的模型；第二，人工智能系统与以人类为代表的生命体之间目前没有形成统一的模型。

这两个挑战都指向了同一个问题，即对于所有的人工智能系统和所有生命体（特别是以人类为代表的生命体）需要有一个统一的模型进行描述，只有这样才能在这个模型上建立智力测量方法并进行测试，从而形成统一的、可进行相互比较的智力发展水平评价结果。

标准智能模型和人工智能智商测试

从2014年开始，我和中国科学院虚拟经济与数据科学研究中心教授石勇针对如何定量分析人工智能与人类智慧的关系进行了研究，研究参考了冯·诺伊曼结构、戴维·韦克斯勒人类智力模型、知识管理领域DIKW（Data, Information, Knowledge, Wisdom，数据、信息、知识、智慧）模型体系等。我们分别在2014年和2015年发表论文提出建立“标准智能模型”，统一描述人工智能系统和人类的特征和属性。

其中，冯·诺伊曼结构给我们的启发是：标准智能系统模型应包含输入/输出系统，能够从外界获取信息，能够将内部产生的结果反馈给外部世界。只有这样，标准智能系统才能成为“活”的系统。

戴维·韦克斯勒关于人类智能的定义给我们的启发是：智力能力由多个要素组成，而非图灵测试或视觉图灵测试那样只关注智力能力的一个方面。

DIKW模型体系给我们的启发是：智慧是一种解决问题、积累知识的能力；而知识是人类不断与外界交互后沉淀下来结构化的数据和信息。一个智能系统不仅仅要掌握知识，更重要的是还要有解决问题的创新能力。这种对知识的掌握能力、解决问题的创新能力与戴维·韦克斯勒理论、冯·诺伊曼架构相结合，就可以形成智能系统智力能力的多层次结构“标准智能模型”，如图1所示。

根据上述研究，可提出标准智能系统的判定标准：任何系统（包括人工智能系统、人类等生命系统），如果符合如下特征，就可以认为这个系统属于标准智能系统。

● 特征1：能通过声音、图像、文字等方式（包括但不限于这三种方式）从外界获取数据、信息和知识的能力。

● 特征2：能够将从外界获取的数据、信息和知识转化为系统掌握的知识。

● 特征3：能根据外界数据、信息和知识所产生的需求，通过运用所掌握的知识进行创新的能力。这些能力包括但不限于联想、创作、猜测、发现规律等，这种能力运用的结果可以形成自身掌握的新知识。

● 特征4：能够通过声音、图像、文字等方式（包括但不仅限于这三种方式）将系统产生的数据、信息和知识反馈给外界或对外界进行改造。

2014年，我们在标准智能模型的基础上构建了人工智能智商评测量表。从信息或知识的输入、输出、掌握和创新等四大方面建立人工智能智商评价体系，并在此基础上建立图像、文字、声音识别、常识、计算、翻译、创作、挑选、猜测、发现等十五个小类，形成人工智能智商评测量表。我们对世界50个搜索引擎和3类不同年龄段人群进行了“人工智能智商测试”，测试结果发现目前人工智能系统的智商远远低于人类智商，评测最高的谷歌系统尚不及6岁儿童智商的一半，见表1。

2016年2月，我们和中国科学院大学刘颖团队开展“2016年人工智能智商测试”，目前已对谷歌、百度、搜狗等人工智能系统以及苹果Siri、微软小冰等进行了测试，工作还在进行中。不过从已完成的工作看，谷歌、百度等人工智能系统的性能比两年前已有大幅提高，但仍与6岁儿童有较大差距。

扩展的冯·诺伊曼架构

标准智能模型的建立参考了冯·诺伊曼架构。冯·诺伊曼架构由计算器、逻辑控制装置、存储器、输入系统和输出系统五个部分构成。通过对比图1和图2的差别能够发现，冯·诺伊曼架构可以补充两个部分。通过这种补充，我们得以将人、机器以及人工智能系统用一个更为明晰的方式表示出来。

第一个补充是创新创造功能，即能够根据已有的知识，发现新的知识元素和新的规律，使之进入到存储器，供计算机和控制器使用，并通过输入/输出系统与外部进行知识交互。第二个补充是能够进行知识共享的外部知识库或云存储器，而冯·诺伊曼架构的外部存储只为单一系统服务。因此，对冯·诺伊曼架构进行扩展，可形成新的架构（见图3）。

人工智能系统智能等级分级标准

在研究的过程中还发现，无论在自然界还是人类社会，即使是智商相同的人工智能系统，因其所在关键领域仍然存在巨大差异，也都存在智能和知识的分级现象。譬如，蚂蚁、鱼、猴子和人类，虽然都属于生命系统，但其种群个体都存在智能的差异。人类的教育体系也存在分级，例如本科、硕士、博士的分级。等级内部进行考核区分优劣，但在不同等级间，需要在知识、能力、资历上有明显提升和考核才能升级。

回到人工智能系统的智商测试上，应如何区分智能系统因在关键领域功能不同而产生的巨大差异呢？上述研究中提到的“标准智能模型”（扩展的冯·诺伊曼架构）给了我们启发，判断标准如下：

● 能不能和测试者（人类）进行信息交互，也就是有没有输入/输出系统；

● 系统内部有没有能够存储信息和知识的知识库；

● 这个系统的知识库能不能不断更新和增长；

● 这个系统的知识库能不能与其他人工智能系统进行知识共享；

● 这个系统除了从外部学习并更新自己的知识库之外，能不能主动产生出新的知识并分享给其他人工智能系统。

人工智能系统的6个智能等级分级

对于人工智能系统的第0级系统，其基本特征在理论上存在，但现实中并不存在这样的人工智能系统。在扩展的冯·诺伊曼架构延伸出来的分级规则中，可以做一些组合，例如可以信息输入，但不能信息输出；或者可以信息输出，但不能信息输入；或者可以创新创造，但知识库不能增长。对于这些在现实中不能或无法找到对应系统范例的案例，我们将其统一划归到“人工智能系统的第0级系统”，也可以叫“人工智能系统的特异类系统”。

对于人工智能系统的第1级系统，其基本特征是无法与人类测试者进行信息交互。例如有一种被称为泛灵论的思想认为天下万物皆有灵魂或自然精神，一棵树和一块石头都和人类一样，具有同样的价值与权利。当然，这种观点从科学的角度看，只能算作猜想或哲学思考。从“能不能和测试者（人类）进行信息交互”的分级规则看，因为石头等物体不能与人类进行信息交互，也许它内部有知识库，能够创新知识，或者能够与其他石头进行信息交互，但对人类测试者来说则是黑箱，不能让人了解。因此不能与测试者（人类）进行信息交互的物体和系统可以定义为“人工智能系统的第1级系统”，符合第1级分类的范例有石头、木棍、铁块以及水滴等等不能与人类进行信息交互的物体或系统。

对于人工智能系统的第2级系统，其基本特征是能够与人类测试者进行交互，存在控制器和存储器，即冯·诺伊曼架构描述的系统，因此很多家用电器被称作智能家电，如智能冰箱、智能电视、智能微波炉和智能扫地机。这些系统大多有一个特点，即虽然它们内部或多或少有控制程序信息，但一旦出厂，就无法再更新它们的控制程序，不能进行升级，更不会自动地学习或产生新的知识。譬如智能洗衣机，人们按什么键，洗衣机就启动什么功能。从购买到损坏，其功能都不会发生变化（故障除外）。这种系统能够与人类测试者和使用者进行信息交互，符合冯·诺伊曼架构描述的特征，而且它的控制程序或知识库从诞生时起就不再发生变化，这种系统可以定义为“人工智能系统的第2级系统”，范例包括日常见到的扫地机器人、老式的家用电冰箱、空调、洗衣机等等。

对于人工智能系统的第3级系统，其基本特征是除具备2级系统的特征外，其控制器、存储器中包含的程序或数据可不联网进行升级或增加。例如家用电脑和手机是我们常用的智能设备，它们的操作系统往往可以定期升级。例如，电脑的操作系统可从Windows1.0升级到Windows10.0，手机的操作系统可从Android1.0升级到Android5.0，这些设备的内部应用程序也可以根据不同的需要不断更新升级。这样，家用电脑、手机等设备的功能会变得越来越强大，可以应对的场景也越来越多。除了家用电脑，很多家用电器、机器人也都开始留有接口，可以通过外接设备进行系统升级。这一类系统明显比第2级智能系统适应性更强。这种系统能够与人类测试者、使用者进行信息交互，但不能与其他系统通过“云端”进行信息交互，其控制程序或知识库只能接受USB、光盘等外接设备进行程序或信息升级的系统，可以定义为“人工智能系统的第3级系统”，范例包括智能手机、家用电脑、单机版的办公软件等。

对于人工智能系统的第4级系统，其基本特征除了包含3级系统的特征外，最重要的是可以通过网络与其他智能系统共享信息和知识。2011年欧盟资助了一个叫作RoboEarth的项目，该项目旨在让机器人可以通过互联网分享知识。帮助机器人相互学习、共享知识，不仅能够降低成本，还会帮助机器人提高自学能力、适应能力，推动其更快、更大规模地普及。云机器人的这些能力提高了其对复杂环境的适应性。这类系统除了具备3级系统的功能，还多了一个重要的功能，即信息可以通过云端进行共享，因此这种系统能够与人类测试者、使用者进行信息交互，可以通过“云端”进行信息交互，进行程序或信息升级。但这类系统所有的信息都是直接从外部获得，其内部无法自主地、创新创造性地产生新的知识。这种系统可以定义为“人工智能系统的第4级系统”，范例包括谷歌大脑、百度大脑、RoboEarth云机器人、B/S（Browser/Server，浏览器/服务器）架构的网站等。

对于人工智能系统的第5级系统，最基本的特征就是能够创新创造，识别和鉴定创新创造对人类的价值，以及将创新创造产生的成果应用在人类的发展过程中。我们在扩展的冯·诺伊曼架构时，对原来的冯·诺伊曼架构增加了创新知识模块，就是试图把人纳入到扩展的人工智能系统概念中，人类可以看作是大自然构建的特殊“人工智能系统”。与前四个等级不同，人类等生命体最大的特征就是可以不断地创新创造，如发现万有引力、元素周期表，撰写出新小说，创造新的音乐、画作等等，然后通过文章、信件、电报，甚至互联网进行传播和分享。不断地进行创新创造，并能够识别创新创造对自身的用处，这让人类占据了地球生态环境下的智力制高点。因此，这种系统能够与人类测试者使用者进行信息交互，可以创新创造出新的知识，并可以通过文章、信件、电报甚至互联网这样的“云端”进行信息交互，这种系统可以定义为“人工智能系统的第5级系统”。人类是第5级人工智能系统最突出的范例。

谷歌AlphaGo属于智能的第几等级

2016年3月，谷歌AlphaGo（阿尔法狗）与韩国围棋世界冠军李世石进行了举世瞩目的围棋比赛，并以大比分获得胜利。那么AlphaGo属于人工智能系统的第几级？我们可以根据上述规则进行评定。

因为AlphaGo可以与棋手进行比赛，具有庞大的运算系统和数据存储系统，因此具备第2级系统的条件。在谷歌的研发过程中，AlphaGo的策略训练模型版本通过不断进行大量数据训练而不断升级，从2016年1月与欧洲冠军对战，到2016年3月与韩国围棋世界冠军李世石比赛，AlphaGo的软硬件系统也获得很大提升，因此AlphaGo具备了第3级系统的条件。

从公开的资料看，AlphaGo虽然可以通过网络实现大量CPU和GPU协同工作，但由于保密性或阶段性问题，谷歌目前还没有在互联网上开放AlphaGo程序接受用户的在线挑战，因此AlphaGo不具备第4级智能系统条件。

关于AlphaGo是否具备创新创造性问题，我们认为它依然是依托人工支持的大数据训练形成的策略模型，同时在比赛中结合比赛对手的落点数据，根据其内部的运算规则，来不断形成自己的落点数据，这些落点数据最终形成比赛数据集合。AlphaGo根据围棋规则与对手的比赛数据集合进行计算和比较，判断输赢，整个过程完全在人类设定的规则下运行，无法体现其自身的创造性，如图4所示。

即使AlphaGo形成的落点数据集合很可能是人类历史上没有出现过的，也不能说明AlphaGo具备了独立的创新创造功能。例如，我们用计算机程序实现下述过程：从1万到100万的自然数中随机选取两个数进行相乘，记录相乘结果，重复此过程361次，即使得出的自然数集合很大，并且可能是人类历史上没有出现过的，我们也不能认定该计算机程序具有创新创造性。

如果AlphaGo在没有人类提供数据的情况下，能够主动获取棋谱，自动设计程序进行模拟对战，学习经验，并用于改变自己的训练模型，用于实战比赛，战胜对手，那么在这种情况下，我们才可能认为AlphaGo具备创新性。但从人工智能的发展过程看，AlphaGo还完全无法实现这一点。因此，综合来看，AlphaGo的智能等级被评定为3级，与人类相差两个级别。

工作意义和后续工作

对人工智能系统进行智力分级，有助于我们更好地对这些智能系统进行分类和评判，同时为低等级智能系统的发展方向提供支持。对于人工智能系统的分级问题，我们与石勇教授等人正在建立数学模型，希望用定量的方式判断人工智能系统所属的分类等级。这项工作在公布之后，我们也将撰文向大家汇报。

作者：刘锋

中科图灵世纪CEO，人工智能学家主编，北京交通大学计算机博士。主要研究方向为人工智能智能等级和智商研究、互联网与脑科学交叉对比研究等。