【书评】《未来学徒》：怎么让人工智能记住并且在人群中认出你？

钛媒体 • 5年前扫码分享

作者：脑极体，专注于人工智能与泛前瞻科技领域的独立自媒体团队；
出版社：人民邮电出版社；
出版时间：2019年8月；

话说想随便谈个恋爱，总共分几步？

这是标准的形而上哲学问题，有些单身狗黄金会员甚至能告诉你答案是负无穷。但如果就考虑正常人的一般情况，那第一步可能是从搭讪开始算。

但如果你想跟人工智能谈个恋爱，那情况可能就要复杂一点了。毕竟搭讪的前提是它能记住你才行，但就算它能记住你，也要把你和桌椅板凳、萝卜青菜分开才行。

今天要讨论的技术，就是负责这块工作的——当然谈恋爱啥的还有点远——如何让AI记住某件事的同时，将这件事从与万事万物的记忆中区分出来。

这个精神网络技术的名字叫做LSTM（Long Short-Term Memory）长短期记忆网络，可以说是个相当酷的名字。

这项技术虽然在1997年就被提出，但随着整体AI技术环境的成熟和改进方式的完善，LSTM在近段时间开始火爆了起来。包括谷歌翻译等产品中都开始应用这项技术。

今天就来科普下这个“让人工智能在人群中认出你”的技术。虽然LSTM的技术进程推进比不上很多算法与精神网络，但它展示的未来可能与人文内涵却带来更加丰富的意味。

从呱呱坠地到情窦初开：LSTM解决了什么问题

想要了解LSTM，必须先要弄懂另一个名词：循环神经网络（RNN）。很多机器学习算法与应用都会用到RNN，主要就是因为它解决了机器学习中一个最重要的问题：记忆。

所谓循环神经网络，简单来说是在传统的神经网络上加入了”循环“功能。最开始的神经网络，每层计算之间的结果是不相联系的，这样留下的问题是机器学习系统没有记忆能力。

而RNN的根本出发点，就是将不同层精神网络之间的输入、运算与输出进行联系。让神经网络产生记忆能力。

赋予机器学习记忆能力，有很多直接使用场景。比如说在机器翻译当中，使用RNN技术可以带来联系上下文的能力，让翻译结果准确贴合语境。

但是RNN还是存在着巨大的缺陷，那就是它不知道如何选择该记忆什么忘记什么。这就导致了机器学习系统把所有信息都记了下来。这样首先给运算能力增加了大量负荷，其次也让神经网络难以判定比较遥远信息的对应性。这在AI界被称为RNN的“长序依赖”问题。

举例来说，用RNN协助进行翻译，它会记住连续语句中的吃饭、喝水等动作。但如果主人公在前几段举起了酒杯，这一段开始喝酒，那它就彻底分不清了....

针对这些问题，从业者发明了LSTM，所谓长短期记忆网络，就是来区分哪些记忆要归位长期记忆，哪些记忆只需要短期储存。这样就可以在循环记忆网络中记住关键信息的同时减轻运算工作量。

所以LSTM是一种特殊的RNN。

回到谈恋爱的话题，RNN就像一个呱呱坠地的婴儿，虽然有了记忆，但无法区别记忆，不知道该记住什么。而LSTM就像情窦初开的少年，他已经能记住女孩的名字、爱好、容貌，并将这些东西联系起来，推断出自己注定是备胎的悲惨现实……

三重门：LSTM的工作原理

不妨简单解释一下LSTM的工作原理。

LSTM区别于RNN的地方，主要就在于它在算法中加入了一个判断信息有用与否的“处理器”，这个处理器作用的结构被称为cell。

一个cell当中被放置了三扇门，分别叫做输入门、遗忘门和输出门。一个信息进入LSTM的网络当中，可以根据规则来判断是否有用。只有符合算法认证的信息才会留下，不符的信息则通过遗忘门被遗忘。

说起来无非就是一进二出的工作原理，却可以在反复运算下解决神经网络中长期存在的大问题。目前已经证明，LSTM是解决长序依赖问题的有效技术，并且这种技术的普适性非常高，导致带来的可能性变化非常多。各研究者根据LSTM纷纷提出了自己的变量版本，这就让LSTM可以处理千变万化的垂直问题。

LSTM的应用空间

LSTM虽然没有多么复杂，但应用率却非常高。例如这项技术已经被证明有效的应用环境就是在文本理解与翻译领域。

LSTM的最直接价值体现，就是根据上下文之间的关键信息，来推断后序文本当中出现的主体定义。这就让机器翻译更有可能处理较长的文本甚至整个故事。

对于“机器学习+文本”来说，理解、翻译和新的文本生成永远是捆在一起的铁三角。LSTM可以帮助理解上下文这种人类特有的表达方式，当然也有助于AI学习从人类文本中梳理逻辑和脉络。而以此为契机反向生成有语境、有逻辑、有伏笔的新文本，也是LSTM最直接的应用场景之一。

同样，上下文不仅是在文本当中才有。比如在视频当中，就也会出现前后故事联系的情况，甚至更复杂一点出现通过图像来进行的上下文联系。比如一件衣服穿在不同人物身上的意义；反复出现的关键道具；甚至天气对剧情的推动作用。

目前已经有通过LSTM变体技术来解读电视剧的实验。而更广阔的应用空间，是通过LSTM来对监控视频进行记忆推理。比如在全市的视频监控数据中寻找被偷钱包的下落等等，说不定都很快可以实现。

同样，在NLP自然语言处理当中，LSTM也可以有巨大的应用价值。比如选择记忆人的语言习惯、口音、发音方式等等，可以帮助AI理解人类真实语言，降低对语言准确性的要求。另外通过LSTM也可以帮助AI来理解人类的大段语音命令，从而让人类对AI下达负责命令成为可能。

未来狂想：当机器开始选择性记忆

让人工智能选择性地记住点什么，绝对是一件脑洞大开的事。

这很容易理解，要知道众多科幻片里毁天灭地的人工智能都是从有选择性记忆开始的——当然他们不约而同先记住人类很坏就不知道为什么了。

由于针对长短期记忆的训练数据缺失非常严重，LSTM的进化速度还比较缓慢。尤其是更加抽象的非文本材料信息训练十分匮乏，也较少行之有效的训练方式。但如果补完了这一环，那带来的想象冲撞可谓疯狂。

这里列举一下LSTM技术带来的两条比较有可能的进化线。他们都是由LSTM指向的选择记忆能力作为来说，却很容易推导到我们十分惧怕也十分向往的人工智能能力当中。

猜想1：长短期记忆——选择记忆——精确的推理能力——预言能力

解释：通过大量的选择记忆训练，AI可以理解到事物之间有怎样的长序联系。甚至是信息距离非常遥远的两个事物之间是如何关联的。而这指向的也就是机器的推理能力。随着一些优质论文的发表，最近机器推理又成为了AI圈的热门话题。机器可以具备推理能力近乎是确定的了，而可以利用无限多数据的AI，是否可以将推理能力做到极致，达到人类梦寐以求的预言未来能力呢？

再往下想，能够预言未来的AI会如何看待人类的现在，以及AI与人类的关系呢？真是细思恐极。

猜想2：长短期记忆——选择记忆——选择性专注——机器价值观

很多科学家都认为，在循环神经网络这条线上，LSTM带来了选择记忆能力之后，下一步就是训练机器如何选择性的把运算能力专注在某件事上。而可以自行判断专注目标、专注时长以及专注目的的AI，是否可以说是有了自己的价值观呢？

毕竟人类的所谓价值观，说穿了也无非就是在什么东西上浪费多少记忆、思考和时间而已。有了自己价值判断的AI，当然也是人类一边期待一边惧怕的。

这样看来，LSTM技术可以帮助人工智能在人群之中记住你，也不一定准是好事。毕竟即使你想跟可爱的AI谈个恋爱，人家说不定是想动动手指灭了你。

但无论如何，AI的记忆，已经是一道关不上的闸门了。

【钛媒体作者介绍：本文内容来源于《未来学徒》的作者脑极体。他们是专注于人工智能与泛前瞻科技领域的独立自媒体团队，以深度科普和令读者脑洞大开的独特视角为写作特色。见证并参与了国内外人工智能领域的多项大事件。目前脑极体已在十余家主流科技媒体开设专栏，多次获得重要科技写作类奖项。】

更多精彩内容，关注钛媒体微信号（ID：taimeiti），或者下载钛媒体App

【书评】《未来学徒》：怎么让人工智能记住并且在人群中认出你？