GAITC 2021智媒专题论坛曹立宏：AI和BI互助发展智能媒体任重道远

砍柴网 • 3年前扫码分享

6月6日，由中国人工智能学会（以下简称CAAI）主办，新浪新闻联合中国传媒大学共同承办的2021全球人工智能技术大会（GAITC）“发展与挑战”专题论坛在杭州举行。CAAI智能传媒专委会副主任、中国传媒大学脑科学与智能媒体研究院院长、教授曹立宏，微博COO、新浪移动CEO、新浪AI媒体研究院院长王巍共同担任论坛主席，与来自传媒学界和人工智能领域的专家齐聚一堂，共同探讨人工智能、大数据、深度学习、脑科学等新技术的前沿应用研究与发展趋势。

曹立宏教授在本次论坛上，与来自业界、学术界的嘉宾们分享了《有关媒体的进脑入心问题》。

曹立宏作主题演讲。

他在致辞中表示，“媒体的进脑入心问题还面临着许多挑战。过去解决的是媒体的传输问题（多、快、好、省），现在要解决媒体的融合与吸收问题，要从脑科学与人工智能的角度看待这些挑战，并探讨可能的途径。”

曹立宏教授认为，AI2.0和BI（Brain Intelligence）有明显的区别。媒体的目的是为人（脑）服务，AI却不一定是。智能媒体的愿景是:发展为人脑所用并受益的智能媒体技术和内容，发展类脑智能是发展智能媒体的重要途径之一。发展类脑智能，可以从几个方面入手：从感知到认知、从动物到人类、从婴儿到成人、需要具身交互的环境。另外，AI和BI可以互助发展。进脑入心，并非易事。智能媒体，任重道远。

以下为曹立宏教授演讲实录，内容经编辑略有删减：

很高兴有这样一个机会跟大家交流。今天我想了一个题目《有关媒体的进脑入心的问题》。我自己主要做脑科学与智能媒体。怎么样能够真正让媒体进脑入心？我想我关心的问题，也是很多媒体界的朋友所关心的问题。这个是人工智能的大会，所以有必要说一下人工智能和智能媒体之间的一些差异。

人工智能有很多正面的影响，例如创建了数字世界等。但也产生了一些问题，我们今天在这里并不去关心这些问题。如果做个小结，人工智能使得媒体更贴近了大脑，未来可能能够直接接入大脑。但是有一件事情特别重要，我们收到媒体的信息，不等于吸收到了媒体希望你吸收的信息，也就是说进脑不一定入心。从这一点可以看到，很多企业为了争夺眼球，但实际上丢了品牌。在这里必须说一下新浪能够有今天的品牌，能够体会到它对品牌的重视。另外，我们也能体会到非主流和主流媒体之间，在信任度上还是有很大的差异。

人工智能其实是给机器人进行赋能，尤其是现在的人工智能。但智能媒体需要给真实的人赋能，所以智能媒体更需要来关注人脑。

如果我们对现在的AI2.0，基于Deep Learning的技术做进一步的了解的话，会发现是对大脑的感知做了在数学上称之为“一级逼近”。

AI2.0几大贡献，首先是各种各样的识别。如果把脑的网络结构整理出来，实际上受大脑的启发找到一种参数的模型。增强学习可以说是找到了一种学习的策略，而NLP自然语言处理，很核心的一件事情是发明了“词向量”。通过以上，再加上大数据，高算力进行高维空间的几何变化，曲线、曲面的拟合，再进行优化计算。所以，完全是受到了大脑启发，但有时脱离现实情况。

数学上的很多假设在现实情况下并不成立，造成类似于对抗攻击、开放环境下的困境，像连续学习不了，有灾难性遗忘的问题。另外机器虽然可以翻译，但它根本不能理解。有关媒体信息的进脑入心，我们先看看“进脑”的问题。进脑要以脑的评估为目标，而我们脑并不是简单的数学代价函数。

我简单说一下MPEG2的一个故事，我有一个大学同学，当年他们在数学上可以证明他们发明的一个压缩方法非常好，很有信心获得世界上MPEG2的标准，但结果没有获得。因为评标准的时候是用眼睛评的，是用人脑评的，所以数学上的最优标准并不一定是适合我们大脑的最优标准。

我们来看ABC三张图，A和B更像还是B和C更像？绝大多数人会认为A和B很像，实际情况是什么样的？如果让婴儿看这个图的话，会觉得B和C更接近一些。A和B怎么造出来的？是用模型，然后用光照，光照略有不同。对成人来说，会觉得这是同一个东西，只是光照不一样。但是从计算机的眼光看的话，会看到像素级别的不同。实际上，像素级别B和C更接近一些。所以，婴儿是看到了客观的东西，而我们成人没有。实际上，没有到成人，在七、八个月的时候就发生了。

脑的评估函数是什么？到现在也不是很确切，但有两件事情很重要：第一，大脑里面有很多反馈的连接，这是我们很主观的一大原因；第二，树突的复杂性是跟智能成正比的，例如老鼠、猫等，神经元的结构本身不一样，我们人脑有非常丰富的树突。

关于“入心”问题，不得不谈到意识。有张图在世界上很有名，有关意识研究的，从很多的研究情况看，大脑有片区域含有跟人的意识相关的物质。

光从意识看其实还是不够，要从意识到认知，因为必须进行记忆理解最后才有决策。一些动物是从感知到行为，它的认知方面比较差，像鱼不会记多少，猫也许并不能真的理解问题。

对于我们人类来说特别重要，是潜意识的力量。潜意识具有决定性的力量，“入心”其实需要进入潜意识。目前其实不太了解，是个难题，但是我们知道有这样一个现象，这是我们人和动物较大的区别。

我给大家介绍一个人类智能的重要标志，就是概念。人脑概念细胞的发现就在十五、六年之前，科学家发现在“MTL”的脑区有这样一些细胞，不同照片，不同角度，甚至黑板上写名字，甚至用男声或女声说这个名字，同一个细胞都会有类似的反应，也就是这个细胞我们在数学上可称之为“不动点”。事实上到后来发现，不但某个个体有这样的细胞，和它有关的个体还会产生关联，所以我们平常对事物的关联，如看到香蕉想到苹果，会有这样的现象。

这样的概念细胞，至今没有在动物的大脑中找到。我们一方面很期待，一方面确实没有找到，还在理论上不断的探索。概念细胞是如何形成的？要想回答这个问题，我们希望知道这个概念细胞到底是怎么形成的？有关这个问题，可以参考去年我们翻译的一本书，叫《遗忘的机器》，它的作者是发现概念细胞的科学家，现在也是欧洲科学院院士。

从原始初级概念到语言，从婴儿角度看的话，婴儿的第一个概念应该是妈妈，我想我们每一个人都有体会，但是我们也不确切知道是怎么形成的。它应该是很多感知信号的整合，目的是有用而且节能。

婴儿一开始是条件反射，没有很强的意识。整个过程是从条件反射到有意识的产生。如果仔细观察的话，两个月前的小孩儿很傻，在三四个月的时候会发现眼睛开始变得有神。另外，妈妈这样的概念来之非常不易，婴儿的视觉发育过程，一开始看不到很远，只能看到20公分左右，正好看得着妈妈的脸；一年左右的时候，才能看到整个全景。这个过程当中，妈妈的脸老是在变，不同的光照，不同的角度和声音，婴儿需要在不稳定的感知信号当中获取一个稳定的概念，也就是妈妈这样一个概念。

再从语言（+实践）到新的高级概念，有这样一些研究：我们日常语言的理解有着明显的具身体验特征。例如，我们拿瓶水，可能觉得有点渴、想要喝水。人脑在思考诸如Lick、pick、kick、square，这些词的时候，放在核磁共振里面做测试，会发现大脑皮层上的活动不一样，例如想到用脚“踢”的话，“踢”的那部分运动脑区响应会比较大。

在基础概念已经形成一些语言的情况下，再通过语言的组合可以触发新的概念。所以语言能够给我们带来想象，这一点非常重要。我们人之所以跟动物有很大的区别，通过语言，通过传媒可以产生新的想象，能够形成新的概念。所以语言的理解有可能就是体验的过程，当然这一点可以有更多的讨论。

我们有一个猜测：概念细胞的形成很可能跟语言有关。但仅仅猜测还不够，我们要去验证。怎么验证？我们很难用人脑去验证，所以做模拟实验，这也是类脑计算的一大使命。

我们做了这样一个试验。这是大概网络的框架，一开始我们把视听通过AI的做法提取一些特征，更重要的在后面，在MTL区域得到整合，再通过海马体（负责记忆这个环节）形成出来，这里面有多模态的整合、输出的整合、记忆的整合，最后产生概念，类似于人学习的能力。

有一个结果是：在2014年一篇脑科学的文章里面，有人对131个物种，在猴脑、人脑，做一些试验，做分类等。我们通过模拟也可以做“分类”。分类的结果：虽然里面有很多形似，也就是看上去很像的东西，但是用途不同，这些概念我们得到了非常好的区分。

图中的结果和大脑的电生理和行为实验结果基本上保持一致，说明模拟的还不错。

从概念模拟到自然语言理解的模拟，我们现在大概知道有这么几个情况在机器语言处理方面，包括GPT3，智源悟道2.0。但真正什么是语言的理解？我觉得还需要做到几方面：不懂会问；不犯常识性错误；会有思考过程；拥有具身体验。

这方面如果要模拟，就要考虑在大脑里面到底有关我们的语言脑网络有怎样的结构。这是可以做模拟的。有了这样一个结构，我们就可以根据脑网络组的情况，构造一个简单的网络，例如我们对视觉类的物体，苹果等，还有运动类的，踢、打等，去做适当的模拟。实际上在2016年的时候有人做了。这里的神经元，相当于“脑功能柱”，有明显的特征，脑功能柱是大家公认的。还有突触模型，有一个非常重要的规则叫Hebbian Rule，但光有规则还不够，还要加一些全局稳定因子。这样做发现真的很有意思，当我们把视觉概念输进去，或者把运动的语言输进去，会呈现出什么样的结果，这些结果跟实际上在大脑皮层上观测，发现结果有相当好的一致性。

我们又通过一个简单的六个脑区的模拟，例如在多模态学习中，学习的过程是多模态的，但是我们激发它的时候，完全可以单模态激发，这很像我们人的行为。另外，具有非常强的抗噪音和去遮挡的能力，我们自己也很惊讶， 50%以上的噪音和50%以上的遮挡都可以很好的处理掉。

最近还发现有一篇非常棒的论文，作者在计算机领域很有名。他受到脑的启发提出了一个大脑计算的理论，解决语言是怎么样构成的。概念首先来自于MTL脑区，然后把概念Copy到一个区域，把名词、动词、主语、宾语调过去，最关键的也是在我们的语言区Broca44和Broca45，整体句子Merge出来。但是反过来看，对整个句子怎么理解。因为所有的连接都是双向的，所以可以分解出来，最后通过概念又可以激发我们的具身系统，通过动作和感受等可以激发出来。

我们知道动物的脑很多地方很像人脑，但语言这方面，人这么厉害，别的动物这么差。通过模拟也能够模拟出好玩儿的现象。猴脑的连接和人脑的连接方式有差异，差异方式有基因决定的，我们把这些差异做到模型里去，会发现：第一，人脑语言脑区的活动强度比较高；另外，有几个脑区同步性会增加；最后一点，消失的速度会减慢。在语言当中我们是随时有记忆的，尤其像我们学校做播音主持的，讲话既有逻辑又有思想，需要靠强大的语言工作记忆系统。我想强调一下动力系统的重要性，人脑的动力系统是有时间维度在里面的，这一点跟目前的AI有很大的差别。

最后我想探讨一下自然语言理解的发育模型。在婴幼儿很早的时候，实际上在大脑里面有一条通路，第二条通路并不存在。但存在第一条通路，足以让听到模仿说话，也就是具备牙牙学语这样的能力。第二条通路伴随着自主语言的能力增强而增强，可以说第二条通路是练出来的，有先天也有后天巨大的作用。所以猜测：自主语言及其在环境中的具身体验实现了对语言的理解，并具有个性化特征。其实我们每个人对语言的理解不完全一样，取决于我们的文化，也取决于小时候的经验等。这些还有待模拟的验证。关于脑发育，去年我们也翻译了一本书，《构建大脑》，这里有很多脑发育的事情。回到主题“进脑入心”的核心堡垒，还有潜意识的问题。时间关系这里就不展开了，还有很多开放的问题。

最后作一个总结：AI2.0和BI（Brain Intelligence）有明显的区别。媒体的目的是为人（脑）服务，AI却不一定是。智能媒体的愿景是，发展为人脑所用并受益的智能媒体技术和内容，发展类脑智能是发展智能媒体的重要途径之一。发展类脑智能，可以从几个方面入手：从感知到认知，从动物到人类，从婴儿到成人，需要具身交互的环境。另外，AI和BI可以互助发展。进脑入心，并非易事。智能媒体，任重道远。谢谢大家！

GAITC 2021智媒专题论坛 曹立宏：AI和BI互助发展 智能媒体任重道远

GAITC 2021智媒专题论坛曹立宏：AI和BI互助发展智能媒体任重道远