「LSTM之父」 Jürgen Schmidhuber访谈：畅想人类和AI共处的世界

雷锋网 • 5年前扫码分享

雷锋网 AI 科技评论按：2019 年 8 月 29 日，世界人工智能大会 WAIC 2019 在上海世博中心举行。瑞士 USI 和 SUPSI 教授，NNAISENSE 联合创始人兼首席科学家，「LSTM 网络之父」 Jürgen Schmidhuber 也受邀出席大会。

8月30日，雷锋网 AI 科技评论和多家社会媒体一同对 Schmidhuber 教授（图中右侧）进行了采访，松鼠 AI 首席架构师 Richard Tong（图中左侧）在现场帮忙翻译。虽然这次采访中来自社会媒体提出的许多问题不那么「技术」，但是 Richard Tong 介绍道 Schmidhuber 不仅是计算机科学家，更是一位哲学家，在这些问题的回答中我们确实看到了 Schmidhuber 对事理和人类社会的哲学思考，甚至有「我们可以像理解人一样理解 AI」的味道。Schmidhuber 教授的语言风格也温文尔雅，不疾不徐，娓娓道来。

提问： 有人把 LSTM 网络称作「机器学习界的 AK-47」，因为它简单，而且可以用于很多不同的任务。您知道这个说法吗？如今，BERT 以及基于 BERT 的模型也被用在很多任务中，仿佛要成为新一代的「AK-47」。您觉得这是一个好的趋势吗？

Schmidhuber： Transformer 和 BERT 模型能在一些任务中带来非常好的表现，比如某些翻译任务。但是如果你看看全局，比如看看语音识别领域里发生的事情的话，目前最新的，2019 年的谷歌语音识别系统仍然是基于 LSTM 的。曾经这些系统需要在服务器上运行，你需要有网络连接才能使用，现在电脑变得越来越便宜，这样的系统也已经可以直接在手机上运行。再比如 DeepMind 的 AlphaStar，这个玩星际争霸的 AI，它的核心是一个深度 LSTM 模型；OpenAI 的 DOTA2 AI 也把深度 LSTM 模型作为核心。如果你想要构建一个有通用能力的 AI，你就会需要类似循环神经网络、LSTM 这样的网络结构；Transformer 模型还不够好。 工业界的实践还是以 LSTM 为主。

提问： 很多人担心随着机器人变得越来越先进，他们的工作会被机器人取代。李开复曾经说人类要更多地做善解人意和富有同情心的工作，以及未来我们也要创造更多这样的工作，让人们有工作可做。您认可他的说法吗？您的观点如何？

Schmidhuber： 几十年以前，当工业机器人刚刚出现的时候，就有人说机器人会把所有人类的工作都代替了。结果后来呢，在那些大量使用机器人的国家，曾经有数百名人类工人的汽车流水线如今使用数百台工业机器人，然后只有几个人看着这些机器人。然而这些有很多机器人的国家有更多的资本，有很低的失业率，因为出现了很多当时的人们预计不到的新职业。三十年前，没有人想得到现在可以做视频博主挣钱，诸如此类。人们喜欢玩乐，不喜欢没有工作，所以 人类一直在创造新的工作。 这些新的工作往往需要人和人之间的互动，像记者、视频博主等等。我猜测，随着 AI 在中国以及全球得到更多的使用， 工作的数量只会增加，而不会减少，失业率也会大致保持不变。因为新的工作会出现。

提问： 您在 2018 年提出了 World Model 的概念，可以多跟大家解释一下吗？

Schmidhuber： 这个想法我在1990年就有了。它里面首先有一个 RNN 模型，可以接收视觉、声音、文本和传感器输入，然后它可以产生动作，比如动一动机器人的手指、眼睛。这样它就是一个控制器，把输入的信号转换成动作输出。除此之外它还有一个进行预测的网络，它能观察到控制器的动作、能观察到世界的输入，然后预测控制器的动作会对外面的环境造成什么样的改变。也就是说它学习判断动作的结果。

所以它也就能够学习对这个世界建模，比如学习到苹果会掉到地下，学习到苹果掉下的时候有什么样的加速度。在学习到苹果的运动规律的同时，也就学到了重力的法则。

在这样的 World Model 设计中，预测模型会帮助控制器变得更好，控制器也可以在执行动作之前先借助预测模型进行提前规划，选择能得到最高回报的动作；执行一系列预计会有很高回报的动作，然后得到这一系列预计到的高回报。最终，控制器就可以做整个模型认为「好」的事情。其实我们自己就是这样的，正在学习这个世界的小孩更是这样的。

这个概念是1990年提出的， 控制器模型和预测模型就像人的左脑右脑一样相互配合、相互促进改进。 这个概念不仅是一个有长远影响的通用框架，在实际应用中也有好的效果。

提问： 为什么现在人们没有普遍在手机上使用语音识别技术？IoT 设备上会有更大的使用空间吗？

Schmidhuber： 实际上，在谷歌搜索接收到的所有搜索请求里， 有 1/3 都是由 LSTM 网络处理的语音查询输入。 对于中国人没有普遍使用它的原因，据我所知，中国人没有那么担心隐私，美国人有一点担心，欧洲人则非常担心。所以欧洲人不使用语音识别的原因是他们知道大公司会把所有东西都存储下来，然后把这些语音作为改进语音识别系统的训练样本。比如有的人讲话有口音，但是当前的 LSTM 网络没有在足够多的带口音的样本上训练，语音识别的效果不好，那么企业就会把这些语音记录下来，研究正确的识别结果应该是什么样的，并让 LSTM 学习。因为人们知道亚马逊之类的大公司会做这样的事情、会存储语音，所以他们会担心、会犹豫。我自己就不使用谷歌的语音识别，即便它就是基于 LSTM 的；不过使用它的人也有很多。我觉得关键在于，你能不能接受企业用你的数据来改进模型的这件事。有一些地方的人对隐私是比较在意的，我觉得中国的一大优势就是这里的人没有那么在意隐私。

就技术本身而言，之前的很长一段时间里语音识别的效果一直都不好，大的变化发生在 2015 年。那年谷歌切换到了基于 LSTM 的语音识别系统，然后语音搜索就很快增加到了所有搜索的大概 1/3。Siri 最初使用的也不是 LSTM，后来切换到 LSTM 的时候也遇到了训练数据不足的问题。但现在所有人都在用 LSTM了。以及还有一个因素是训练数据有多少。

我想问大家一个问题，Alexa、Echo 之类的设备很流行，中国有类似的吗？

现场记者七嘴八舌地 ：小米、百度、天猫

Schmidhuber ：它们好用吗？

记者们 ：我们只用来问问天气、放音乐，更多的时候是直接关掉的。我们还是担心它们一直偷听我们的对话，比如聊天聊到某个商品，紧接着就会在购物网站的广告里看到）

Schmidhuber ：有时候是这样的，有些用户协议里就会允许这样的事情。所以技术有好的一面也有坏的一面，就像火，可以保暖、可以烹饪食物，也可以烧死别人；甚至有一点和 AI 一样，如果人类不做什么干预的话就会广泛传播开来。不过，人们发现火带来的好处要比麻烦多多了，所以人们一直在提升改进使用火的技术。这样人类才一直走到了今天。

提问： 现在的人工智能有意识了吗？和人类的意识相同吗？

Schmidhuber： 刚才说到的 World Model 里的预测模型，它只能根据过去的信息、动作和它的观察进行预测，但是只要你可以预测，就可以看做作是已经了解它了，就没有必要存储更多的关于它的信息了。你只需要存储超出意料之外的事情。

而所有这些预测，它们的本质都是压缩。只要你可以预测一个数据，你就可以压缩这个数据。是怎么压缩的呢？在 RNN 网络里有一些小的结构，它们可以存储环境里频繁出现的东西。比如你的环境里经常会出现很多人脸，那么从数据压缩的角度来看，一种很高效的记录方法就是先有一个人脸的样板，然后记录不同的人脸和这个样板的不同在哪里。这种过程在 RNN 里持续地进行着，世界中的各种物体，云彩、房子、窗户、手机都有相似且反复出现的结构，RNN 都可以对它们进行编码，也就是进行压缩。

不过有一点，在这个智能体的整个活动周期中，由于它和环境进行互动、它也是整个环境的一部分，所以预测模型的学习会有一个副产品，就是在它的网络中会有一个子网络用来表示它自己，比如存储智能体常做的事情，就能让预测模型更好地预测、更好地压缩数据。 这样你就全自动地在模型网络内得到了一个有自我符号的、能自我表示的子网络。 刚才我说控制器可以用预测模型做未来的规划、得到更高的回报。在这个过程中， 都可以激发网络内表示它自己的子网络，来考虑自己。从这个角度，可以说它有一定的「意识」。 只不过，这种人造的意识要比人类的意识简单很多。如今最大的人造网络有十亿数量级的参数，但人类大脑中神经元之间的连接是千万亿数量级的，要比目前最大的 LSTM 的参数还要多一百万倍。不过，电脑的价格在快速下降，性能在快速提升，也许再过几年、十几年我们就会有可以和人类大脑比拟的LSTM网络，能在手机这么大的设备上运行，而且还会比现在的网络更快。

提问： 既然人工智能已经有意识了，那么它们未来会有自我价值（ego）吗？

Schmidhuber： 它们会有，而且现在就有。比如我们让机器人学习的时候，我们会给它安装痛觉传感器，因为我们希望它明白它做的哪些事情是会伤害自己的，比如遇到障碍的时候不要猛地撞上去、不要把手放在热灶台上等等，那么只有当机器人有痛觉传感器的时候它才能学到这些。 让机器人学习的目标就可以是减小所有痛觉传感器接受到的痛觉信号的总和，以及最大化所有愉悦信号的总和 ；愉悦信号哪里来呢，可以来自于电量低的时候在充电站充电。 也许就像人一样，人一天要吃三顿饭，机器人可以一天充三次电 （现场记者笑）。没有痛觉的机器人很难学习到什么事情对它们是不好的，就像人类小孩的痛觉感受可以帮他们更好地学习。

从纯粹工程的角度讲，我们给机器人自我意识也是有好处的，让它能躲避疼痛的事、做更多愉快的事。通过足够多的训练，机器人就能学会如何在环境里行动，学会躲开障碍物、找到充电站充电。再比如，如果有个人每次见到机器人都会打机器人一拳，那么许多次以后，由于机器人要躲避疼痛的事情，它也许就会学会用人脸识别辨认这个人，当他来以后就躲在窗帘后面。这在别人看来就仿佛机器人在害怕，好像是有了自我意识。 所以，为了让机器人学习，可以说我们一开始就设计了自我价值。

提问： 那么机器人的道德呢？它们会遇到道德困境吗？

Schmidhuber： 我们平时讨论的人类会遇到的道德困境，机器人也会遇到。道德行为来自哪里呢？当许多个个体，许多人或者许多机器人组成社会的时候，他们各自都有躲避疼痛、追求愉悦的目标。然后他们发现，在许多情况下，互相帮助能让他们都更好地达到各自的目标。 自我意识可以自然地带来利他行为，这就是社会中道德的来源。 如果有一个社会，其中的个体最好都遵守一些规则，比如不可以伤害别人；宗教也有类似的作用，通过对其中的个人的行为增加一些限制，这些个体可以受益，整个群体也可以受益。这样的规律适用于人类，也同样适用于机器人。

提问： 机器人会有个性吗？他们的个性来自哪里？

Schmidhuber： 机器人的个性来自训练数据，训练数据不同，个性就不同。就像如果一个人在贫困、混乱的地方长大，那么他的性格和追求就会和富足的家庭里长大的小孩完全不同。对机器人来说，在不同的训练数据上最小化疼痛、最大化愉悦得到的策略也是不一样的。所以，不管对人类还是对于机器人来说，他们的性格发展都受到环境的很大影响。如果一个机器人杀人以后你会给它奖励，那它就会学会变成一个坏的机器人；如果它救人以后你给它奖励，它就会学会做一个很好的机器人；就像养小孩一样。未来的编程也会更像教小孩一样，让机器人学习，而不是直接执行人类设计好的规则。

提问： 富人和穷人拥有的资源不一样，那他们拥有的 AI 也会不同，这会不会增大社会差距？

Schmidhuber： 我觉得最重要的是，AI 会让大家的生活变得更好。未来也许每个人都有很多 AI，可以用AI帮他们做各种各样的事情，就像今天每个人都有智能手机一样。我讲个趣事，40年以前我曾经遇到一个人，他开一辆保时捷，而且车里有一部手机；这可是40年前，手机很罕见，只有很富的人才买得起。但今天手机很便宜了，今天很穷的人买到的手机都会比当年那个人的手机更好。 AI 也是一样的，也会变得更便宜，让穷的人也收益。

提问： 相比于 AI 为日常生活带来好处，我看到更多的是人们沉迷于 AI 娱乐，年轻人经常连续刷抖音或者社交平台好几个小时，因为 AI 会一直推荐他们感兴趣的内容，让他们停不下来。

Schmidhuber： 这些确实不是好事，就像沉迷玩游戏也不是好事。但小孩是有父母的，父母要帮助管理自己的小孩，防止他们沉迷于电脑游戏、社交网络、毒品等等。不过长期来看，很多人都会从AI受益，或者已经从AI受益了。2012年的时候AI就可以帮助诊断乳腺癌风险，到今天，AI的成本又降低了许多，更穷的地方可以用上AI，或者用一样的成本可以做更多的医疗，这对整个医疗体系都是革命性的帮助，大家都会从中受益。

雷锋网 (公众号：雷锋网) AI 科技评论报道。

。

「LSTM之父」 Jürgen Schmidhuber访谈：畅想人类和AI共处的世界

随意打赏

ai对人类的影响 zao ai换脸 lstm之父 AI取代人类 lstm网络 ai人类智能