郑南宁院士:如何利用脑认知和神经科学启发,构造一个健壮的人工智能
雷锋网按:10 月 21 日- 22 日,在科技互联网行业一直鲜少出现在头排的泉城济南,因为 2017 中国自动化大会暨国际智能制造创新大会的举办,出现在了行业聚光灯下。
此次大会由中国自动化协会主办,山东大学、山东省自动化学会承办,聚集了国内外自动化、电气信息技术、先进制造及相关领域近 20 位院士,200 余位长江学者、国家杰青和千人计划学者,中国工程院院士郑南宁、孙优贤、柴天佑、桂卫华,中国科学院院士吴宏鑫等众多学界、产业界大牛也都悉数现身。
与之相对的是现场与会者的热烈反应,大会第一天,2000 人的会场,在上午 9 点钟,从一楼到三楼就已经全部坐满。会后,雷锋网与一位参会的重庆大学副教授交流时,后者提起郑南宁院士当天的《受脑认知和神经科学启发的人工智能》报告,仍掩饰不住热情与赞赏。
说起郑南宁院士,他是西安交通大学人工智能与机器人研究所教授,中国自动化学会理事长,也是此次大会的主席。在 21 日上午近 1 个小时的报告中,郑院士从人脑和神经元的结构与功能讲起,详细剖析了人脑在直觉推理、认知推理、因果模型等各个方面,为深度学习与人工智能带来的新的灵感与借鉴意义,以及我们如何通过这种启发,训练出“健壮的人工智能”。雷锋网 (公众号:雷锋网) 对其报告内容进行了整理,并做了不改变原意的调整。
此次报告可分为四部分:
1.为什么要去实现健壮的人工智能?传统人工智能的局限性是什么?
2.脑认知和网络连接之间的关系是什么?脑认知如何与人工智能结合?
3.脑认知具体是如何工作的?
4.以无人驾驶为例,分析人工智能中的认知与推理是如何解决实际问题的。
以下为报告全文:
人工智能渗透到了人类社会各个领域,但目前来看,无论是深度学习还是其它方法,解决的都是单一问题。人类大脑是一个多问题求解的结构,怎么从脑认知和神经科学中得到构造健壮的人工智能的启示,国内外都做了非常多有成效的研究。
实现健壮的人工智能的方法
人类面临的许多问题具有不确定性、脆弱性和开放性。今天人工智能的理论框架,建立在演绎逻辑和语义描述的基础方法之上,但我们不可能对人类社会的所有问题建模,因为这中间存在着条件问题,我们不可能把一个行为的所有条件都模拟出,这是传统人工智能的局限性。
这个局限性主要表现在几个方面:
-
需要对问题本身抽象出一个精确数学意义上的解析式的数学模型(抽象不出,即归纳为不可解问题);
-
需要为已建立的数据模型设计出确定的算法(容易产生诸如 NPC 等问题);
-
处理的结果无法表现现实世界所固有的不确定性;
-
图灵意义下的可计算问题都是可递归的(“可递归的”都是有序的);
-
用“度量”来区分模式,只能处理可向量化的数据。
我们要建造一种更加健壮的人工智能,需要脑认知和神经科学的启发。计算机和人类大脑是对问题求解的物质基础。在智力和计算能力方面,计算机远远超过了人类,但是人类面对的大部分问题都是开放的、动态的、复杂的,大脑在处理这种问题时表现出的想象和创造,还有对复杂问题的分析和描述,是传统人工智能的方法所不能企及的,我们只能够从人类大脑的神经网络结构中去获得构造新的人工智能的因素。
人类大脑非常奇妙,也正是在这个物质基础之上,才演绎出人类世界的发展和对问题求解的各种方法。
右边这幅图简单给出了神经元里的结构模型,神经元的连接并不是像我们一般理解的物理方式,而是靠突出,突出的过程中有一个间隙,这个间隙产生的反应,构成了大脑中奇妙的演进。人类大脑中的思维或学习都是发生在突出这个层面上的。实际上在大脑的神经网络连接中,不同空间对应不同功能,不同功能在自身内部产生着不同的成本函数。
人出生之后,大脑会不断发展,发展到一定程度,神经元增长到一定数量,又会递减,把不需要的神经元删掉。大脑是慢性记忆神经元,它需要具有高度的容错性。
实际上,人出生时大脑是一样的,如三字经所提到的“性相近,习相远”,6 岁以前,大脑在发育,到 6 岁左右,从生物学角度上讲,这种发育就完成了,大家的记忆力、智商等都是教育上的反应。教育的基础就是大脑。所以,大脑不是通过一个统一的没有分化的神经网络来实现单一的全景优化学习的,不同的功能和区域会生成不同的成本函数。它是模块化的,同时具有独特的系统来支撑注意、记忆、语言等功能。因此,我们可以从脑认知和神经科学中去获得发展新的人工智能的灵感。
脑认知与网络连接之间的关系
大脑有 800 亿个神经元的容量,它主要有三种研究方式:1.结构研究;2.功能研究;3.有效研究。
大脑的结构连接是静态的,功能连接和有效研究则具有时空动态演化的特性。在视觉和听觉神经网络的区域空间中,功能连接和有效连接是不一样的。
有效连接是针对具体任务的,在同一个视觉功能连接空间中,当我们执行不同视觉任务时,它所形成的神经网络的有效连接是不一样的。有效连接描述了神经元之间的因果与相互影响关系。从这种结构化的观点来看,我们构造的神经网络还没办法模拟同时具有结构连接、功能连接、有效连接的方式。
功能连接
我们可以通过获取某一个区域的活跃程度,或活跃状态,辨别大脑正在执行什么样的视觉任务。知道它在执行什么样的视觉任务,我们就得到了它有效连接的状态,也可以求出它的有效连接在时空演化中的特性。如果能够求出其中的规律,那显然我们就可以设计相应的人工智能方式去实现。也就是说,我们可以采用可触的、动态的、非线性的关系网络进行认知任务的输入。
再对它的科学问题做一个总结,我们要回答出三点:1.大脑是如何实现优化的;2.脑网络的监督训练信号从哪里来;3.在不同的神经功能研究区域中,存在什么样的有效连接的约束和优化。
脑认知和人工智能的结合
前面讲了概念,在概念基础上我们要抽象出科学问题,这样才能指导我们进一步的研究,找到解决问题的方法。下面我们谈一下这个方法怎么和现在的方法结合。
去年,谷歌和 MIT 联合发表了一篇文章,文章的中心思想是怎么利用神经科学构造健壮的人工智能系统。我们现在深度学习的基本框架,是通过多层神经网络输入,根据误差来调整连接,这建立在大量数据标注的基础上,通过标记数据得到网络优化的成本函数。
我要强调一点,我们通常讲深度学习是从机器学习发展来的,要构造一个学习机器,关键问题是在不同区域、不同任务下,怎么去构造一个成本函数。
大脑的认知活动
大脑的认知活动分为三个不同层次:一是哲学,二是形象思维和逻辑思维,三是敏感性。
直觉推理
直觉和敏感都属于创造性思维,警察在破案中,靠的是多年积累和实践,形成的直觉判断。灵感、顿悟与直觉的区别是,直觉是对当前环境的反应,它在现在人工智能的发展中扮演着十分重要的角色。我们需要一种基于直觉的人工智能,也可以将它看成一种基于直觉的推理。
人的直觉反应实际上是寻找全局最优解。要构造直觉推理,需要连个关键因素:1.需要构造一个成本函数;2.需要给出一个决策结构,而这个决策结构就建立在记忆基础上。
人在观察事物时,一定会形成一种与时间相关的影像。如果把直觉推理和数学归纳演绎推理两类机制组合,就可以实现基于认知计算或受神经科学启发的人工智能。
认知推理
我们把认知推理称为直观、朴素的物理推理。物理层面的认知推理可以化解时间与空间,追踪事物的发展轨迹。认知推理的另一个要素在心理层面,简而言之就是学习方向受心理状态的引导。我们需要把物理层面和心理层面的推理嵌入到推理的人工智能系统中。
因果模型
在直觉和认知推理中,我们还需要构造一种模型,其中因果模型是基础。认知计算框架下的因果模型既要满足物理因果关系所产生的物理约束,同时又要让机器理解当前认知任务下的因果关系。
构造一个具体的人工智能系统
直觉推理、认知推理和因果模型是构建健壮的人工智能必须考虑的基本因素。那么如何来构造一个具体的系统?构造机器人需要三个基本要素:1.对环境中的所有对象进行特征识别,并且进行长期记忆;2.理出对象间的关系,并对它们相互间的作用进行描述;3.基于想象力的行为模型,人在进行具体行动之前,会想象其带来的后果,但机器就需要分析物体之间的各种关系。
这三种要素是让机器像人一样理解物理世界的基础。具有想象力的人工智能,就需要:
-
行动之前预想到结果;
-
构造一个位置模型 ;
-
给出环境模型,提取有用信息;
-
规划想象行为,最大化任务效果。
认知如何解决实际问题
我们在 2000 年初就开始做无人驾驶,有人说要把无人驾驶汽车和城市真实场景的车融合,我们还面临非常艰难的挑战,有相当长的路要走。车联网,V2X,V2V,都一样。在这种局部、动态的场景中,我们怎样让自动驾驶跟环境融合,确实是一个很大的问题。
无人驾驶的挑战存在于:
-
必须准确感知周围环境,在所有条件下安全行驶;
-
自动驾驶必须能够抽象,要完成一种交互情境中的记忆计算;
-
自动驾驶必须能够理解预行为。
现在绝大多数自动驾驶采取了场景感知与定位,决策规划与控制,这是一种简单的 ADAS 形式,但我们要如何通过新的方法来解决这个问题?
场景感知与情境计算
场景是某个交互场合在特定时间和空间中的具体情境和影象,它可以定义为一种实体。情境是指这种实体随着时间和空间变化而产生的关联。情境计算是对场景各个关联的对象做解释,可以定义为一个行为相关体。
这里的问题就是,第一,要让自动驾驶汽车像人一样理解和记忆,就要具有记忆推理和经验分析的技术;第二就,进化发展的自动驾驶,其学习过程要像人类一样熟能生巧。
人类视觉关注的基本机制是选择、组织、整合、编码。
人对变化是非常敏感的,可以提取交通场景中的显著性变化。比如你在开车时,如果右前方突然来了一个骑自行车的人,你的注意力会转移到骑车人的身上。在自动驾驶汽车上,我们要构造一个选择性的注意机制网络,对数种图像进行理解,并根据内部状态的表示,忽略不相关的对象,选择下一步要采取的动作。
把场景感知和情景认知结合起来,需要我们构建一个模型,融合先进知识概念,实现记忆学习。
场景感知是将通过各种不同属性的传感器获得的不同数据,提供到深度学习中,之后再根据长短期记忆和定位网络,进行情境计算。在这种框架中,我们可以把场景感知和情境计算融合在一起。
一个高效的情景计算要运用实际情境的因果关联,在最前端的数据层面进行有效计算,这就需要把数据驱动变成事件驱动。人在开车时,根据情境判断前方可不可以行驶,这就是把数据驱动变成事件驱动。
怎么构造事件驱动?就是把可见光和激光点云数据融合在一起,把三维数据转化成二维图像数据。点云数据给出了每一个生物体的明确的点,二维图像没有深度信息,它是图像的几何形状变化。把人的数据和激光点云的数据融合,用数据驱动转变为事件驱动,就得出了可行驶数据和不可行驶数据大的划分。
人开车的时候,他在注意什么,我们就来构建一个类似的选择性基础,把同样的场景输入到一个深度学习网络中,通过深度学习网络提取特征和人的注意力。
。