GAITC 2021智媒专题论坛 曹立宏:AI和BI互助发展 智能媒体任重道远
6月6日,由中国人工智能学会(以下简称CAAI)主办,新浪新闻联合中国 传媒 大学共同承办的2021全球人工智能技术大会(GAITC)“发展与挑战”专题论坛在杭州举行。CAAI智能传媒专委会副主任、中国传媒大学脑科学与智能 媒体 研究院院长、教授曹立宏,微博COO、新浪移动CEO、新浪AI媒体研究院院长王巍共同担任论坛主席,与来自传媒学界和人工智能领域的专家齐聚一堂,共同探讨人工智能、大数据、深度学习、脑科学等新技术的前沿应用研究与发展趋势。
曹立宏教授在本次论坛上,与来自业界、学术界的嘉宾们分享了《有关媒体的进脑入心问题》。
曹立宏作主题演讲。
他在致辞中表示,“媒体的进脑入心问题还面临着许多挑战。过去解决的是媒体的传输问题(多、快、好、省),现在要解决媒体的融合与吸收问题,要从脑科学与人工智能的角度看待这些挑战,并探讨可能的途径。”
曹立宏教授认为,AI2.0和BI(Brain Intelligence)有明显的区别。媒体的目的是为人(脑)服务,AI却不一定是。智能媒体的愿景是:发展为人脑所用并受益的智能媒体技术和内容,发展类脑智能是发展智能媒体的重要途径之一。发展类脑智能,可以从几个方面入手:从感知到认知、从动物到人类、从婴儿到成人、需要具身交互的环境。另外,AI和BI可以互助发展。进脑入心,并非易事。智能媒体,任重道远。
以下为曹立宏教授演讲实录,内容经编辑略有删减:
很高兴有这样一个机会跟大家交流。今天我想了一个题目《有关媒体的进脑入心的问题》。我自己主要做脑科学与智能媒体。怎么样能够真正让媒体进脑入心?我想我关心的问题,也是很多媒体界的朋友所关心的问题。这个是人工智能的大会,所以有必要说一下人工智能和智能媒体之间的一些差异。
人工智能有很多正面的影响,例如创建了数字世界等。但也产生了一些问题,我们今天在这里并不去关心这些问题。如果做个小结,人工智能使得媒体更贴近了大脑,未来可能能够直接接入大脑。但是有一件事情特别重要,我们收到媒体的信息,不等于吸收到了媒体希望你吸收的信息,也就是说进脑不一定入心。从这一点可以看到,很多企业为了争夺眼球,但实际上丢了品牌。在这里必须说一下新浪能够有今天的品牌,能够体会到它对品牌的重视。另外,我们也能体会到非主流和主流媒体之间,在信任度上还是有很大的差异。
人工智能其实是给机器人进行赋能,尤其是现在的人工智能。但智能媒体需要给真实的人赋能,所以智能媒体更需要来关注人脑。
如果我们对现在的AI2.0,基于Deep Learning的技术做进一步的了解的话,会发现是对大脑的感知做了在数学上称之为“一级逼近”。
AI2.0几大贡献,首先是各种各样的识别。如果把脑的网络结构整理出来,实际上受大脑的启发找到一种参数的模型。增强学习可以说是找到了一种学习的策略,而NLP自然语言处理,很核心的一件事情是发明了“词向量”。通过以上,再加上大数据,高算力进行高维空间的几何变化,曲线、曲面的拟合,再进行优化计算。所以,完全是受到了大脑启发,但有时脱离现实情况。
数学上的很多假设在现实情况下并不成立,造成类似于对抗攻击、开放环境下的困境,像连续学习不了,有灾难性遗忘的问题。另外机器虽然可以翻译,但它根本不能理解。有关媒体信息的进脑入心,我们先看看“进脑”的问题。进脑要以脑的评估为目标,而我们脑并不是简单的数学代价函数。
我简单说一下MPEG2的一个故事,我有一个大学同学,当年他们在数学上可以证明他们发明的一个压缩方法非常好,很有信心获得世界上MPEG2的标准,但结果没有获得。因为评标准的时候是用眼睛评的,是用人脑评的,所以数学上的最优标准并不一定是适合我们大脑的最优标准。
我们来看ABC三张图,A和B更像还是B和C更像?绝大多数人会认为A和B很像,实际情况是什么样的?如果让婴儿看这个图的话,会觉得B和C更接近一些。A和B怎么造出来的?是用模型,然后用光照,光照略有不同。对成人来说,会觉得这是同一个东西,只是光照不一样。但是从计算机的眼光看的话,会看到像素级别的不同。实际上,像素级别B和C更接近一些。所以,婴儿是看到了客观的东西,而我们成人没有。实际上,没有到成人,在七、八个月的时候就发生了。
脑的评估函数是什么?到现在也不是很确切,但有两件事情很重要:第一,大脑里面有很多反馈的连接,这是我们很主观的一大原因;第二,树突的复杂性是跟智能成正比的,例如老鼠、猫等,神经元的结构本身不一样,我们人脑有非常丰富的树突。
关于“入心”问题,不得不谈到意识。有张图在世界上很有名,有关意识研究的,从很多的研究情况看,大脑有片区域含有跟人的意识相关的物质。
光从意识看其实还是不够,要从意识到认知,因为必须进行记忆理解最后才有决策。一些动物是从感知到行为,它的认知方面比较差,像鱼不会记多少,猫也许并不能真的理解问题。
对于我们人类来说特别重要,是潜意识的力量。潜意识具有决定性的力量,“入心”其实需要进入潜意识。目前其实不太了解,是个难题,但是我们知道有这样一个现象,这是我们人和动物较大的区别。
我给大家介绍一个人类智能的重要标志,就是概念。人脑概念细胞的发现就在十五、六年之前,科学家发现在“MTL”的脑区有这样一些细胞,不同照片,不同角度,甚至黑板上写名字,甚至用男声或女声说这个名字,同一个细胞都会有类似的反应,也就是这个细胞我们在数学上可称之为“不动点”。事实上到后来发现,不但某个个体有这样的细胞,和它有关的个体还会产生关联,所以我们平常对事物的关联,如看到香蕉想到 苹果 ,会有这样的现象。
这样的概念细胞,至今没有在动物的大脑中找到。我们一方面很期待,一方面确实没有找到,还在理论上不断的探索。概念细胞是如何形成的?要想回答这个问题,我们希望知道这个概念细胞到底是怎么形成的?有关这个问题,可以参考去年我们翻译的一本书,叫《遗忘的机器》,它的作者是发现概念细胞的科学家,现在也是欧洲科学院院士。
从原始初级概念到语言,从婴儿角度看的话,婴儿的第一个概念应该是妈妈,我想我们每一个人都有体会,但是我们也不确切知道是怎么形成的。它应该是很多感知信号的整合,目的是有用而且节能。
婴儿一开始是条件反射,没有很强的意识。整个过程是从条件反射到有意识的产生。如果仔细观察的话,两个月前的小孩儿很傻,在三四个月的时候会发现眼睛开始变得有神。另外,妈妈这样的概念来之非常不易,婴儿的视觉发育过程,一开始看不到很远,只能看到20公分左右,正好看得着妈妈的脸;一年左右的时候,才能看到整个全景。这个过程当中,妈妈的脸老是在变,不同的光照,不同的角度和声音,婴儿需要在不稳定的感知信号当中获取一个稳定的概念,也就是妈妈这样一个概念。
再从语言(+实践)到新的高级概念,有这样一些研究:我们日常语言的理解有着明显的具身体验特征。例如,我们拿瓶水,可能觉得有点渴、想要喝水。人脑在思考诸如Lick、pick、kick、square,这些词的时候,放在核磁共振里面做测试,会发现大脑皮层上的活动不一样,例如想到用脚“踢”的话,“踢”的那部分运动脑区响应会比较大。
在基础概念已经形成一些语言的情况下,再通过语言的组合可以触发新的概念。所以语言能够给我们带来想象,这一点非常重要。我们人之所以跟动物有很大的区别,通过语言,通过传媒可以产生新的想象,能够形成新的概念。所以语言的理解有可能就是体验的过程,当然这一点可以有更多的讨论。
我们有一个猜测:概念细胞的形成很可能跟语言有关。但仅仅猜测还不够,我们要去验证。怎么验证?我们很难用人脑去验证,所以做模拟实验,这也是类脑计算的一大使命。
我们做了这样一个试验。这是大概网络的框架,一开始我们把视听通过AI的做法提取一些特征,更重要的在后面,在MTL区域得到整合,再通过海马体(负责记忆这个环节)形成出来,这里面有多模态的整合、输出的整合、记忆的整合,最后产生概念,类似于人学习的能力。
有一个结果是:在2014年一篇脑科学的文章里面,有人对131个物种,在猴脑、人脑,做一些试验,做分类等。我们通过模拟也可以做“分类”。分类的结果:虽然里面有很多形似,也就是看上去很像的东西,但是用途不同,这些概念我们得到了非常好的区分。
图中的结果和大脑的电生理和行为实验结果基本上保持一致,说明模拟的还不错。
从概念模拟到自然语言理解的模拟,我们现在大概知道有这么几个情况在机器语言处理方面,包括GPT3,智源悟道2.0。但真正什么是语言的理解?我觉得还需要做到几方面:不懂会问;不犯常识性错误;会有思考过程;拥有具身体验。
这方面如果要模拟,就要考虑在大脑里面到底有关我们的语言脑网络有怎样的结构。这是可以做模拟的。有了这样一个结构,我们就可以根据脑网络组的情况,构造一个简单的网络,例如我们对视觉类的物体,苹果等,还有运动类的,踢、打等,去做适当的模拟。实际上在2016年的时候有人做了。这里的神经元,相当于“脑功能柱”,有明显的特征,脑功能柱是大家公认的。还有突触模型,有一个非常重要的规则叫Hebbian Rule,但光有规则还不够,还要加一些全局稳定因子。这样做发现真的很有意思,当我们把视觉概念输进去,或者把运动的语言输进去,会呈现出什么样的结果,这些结果跟实际上在大脑皮层上观测,发现结果有相当好的一致性。
我们又通过一个简单的六个脑区的模拟,例如在多模态学习中,学习的过程是多模态的,但是我们激发它的时候,完全可以单模态激发,这很像我们人的行为。另外,具有非常强的抗噪音和去遮挡的能力,我们自己也很惊讶, 50%以上的噪音和50%以上的遮挡都可以很好的处理掉。
最近还发现有一篇非常棒的论文,作者在计算机领域很有名。他受到脑的启发提出了一个大脑计算的理论,解决语言是怎么样构成的。概念首先来自于MTL脑区,然后把概念Copy到一个区域,把名词、动词、主语、宾语调过去,最关键的也是在我们的语言区Broca44和Broca45,整体句子Merge出来。但是反过来看,对整个句子怎么理解。因为所有的连接都是双向的,所以可以分解出来,最后通过概念又可以激发我们的具身系统,通过动作和感受等可以激发出来。
我们知道动物的脑很多地方很像人脑,但语言这方面,人这么厉害,别的动物这么差。通过模拟也能够模拟出好玩儿的现象。猴脑的连接和人脑的连接方式有差异,差异方式有基因决定的,我们把这些差异做到模型里去,会发现:第一,人脑语言脑区的活动强度比较高;另外,有几个脑区同步性会增加;最后一点,消失的速度会减慢。在语言当中我们是随时有记忆的,尤其像我们学校做播音主持的,讲话既有逻辑又有思想,需要靠强大的语言工作记忆系统。我想强调一下动力系统的重要性,人脑的动力系统是有时间维度在里面的,这一点跟目前的AI有很大的差别。
最后我想探讨一下自然语言理解的发育模型。在婴幼儿很早的时候,实际上在大脑里面有一条通路,第二条通路并不存在。但存在第一条通路,足以让听到模仿说话,也就是具备牙牙学语这样的能力。第二条通路伴随着自主语言的能力增强而增强,可以说第二条通路是练出来的,有先天也有后天巨大的作用。所以猜测:自主语言及其在环境中的具身体验实现了对语言的理解,并具有个性化特征。其实我们每个人对语言的理解不完全一样,取决于我们的文化,也取决于小时候的经验等。这些还有待模拟的验证。关于脑发育,去年我们也翻译了一本书,《构建大脑》,这里有很多脑发育的事情。回到主题“进脑入心”的核心堡垒,还有潜意识的问题。时间关系这里就不展开了,还有很多开放的问题。
最后作一个总结:AI2.0和BI(Brain Intelligence)有明显的区别。媒体的目的是为人(脑)服务,AI却不一定是。智能媒体的愿景是,发展为人脑所用并受益的智能媒体技术和内容,发展类脑智能是发展智能媒体的重要途径之一。发展类脑智能,可以从几个方面入手:从感知到认知,从动物到人类,从婴儿到成人,需要具身交互的环境。另外,AI和BI可以互助发展。进脑入心,并非易事。智能媒体,任重道远。谢谢大家!