人工智能那么厉害，可我的电脑怎么还这么蠢？

威腾网 • 7年前扫码分享

我是创始人李岩：很抱歉！给自己产品做个广告，点击进来看看。

点燃、沉浸、出窍

在多伦多大学教授赫科特·勒维克看来，能通过图灵测试的人工智能都是十足的骗子。他甚至发表了一篇论文来批评他的同行们。本文作者，纽约大学的教授加里·马库斯，向我们介绍了他这位同行的观点，以及在勒维克眼中，人工智能的未来所应选择的正确道路。

我亲爱的电脑，

你为什么还是不懂我的心？

文：Gary Marcus | The New Yorker

译：北大西洋的龙猫 | 译言网

绘_Arnold Roth

赫科特·勒维克认为他的电脑愚不可及——你的也不例外。Siri跟谷歌的语音搜索，也许听懂“7点钟我附近有什么电影可看？”这种多多少少被人提过的问题；但如果你开口就是“短吻鳄能参加百米跨栏么？”这种一般人问不出来的问题呢？地球人当然都知道答案——显然，短吻鳄没法跨栏。但如果你一字一句的把它敲到谷歌搜索里，它给你的答案只有佛罗里达大学短吻鳄田径队的近况。其它的搜索引擎，比如Wolfram Alpha，碰上这个问题也一样歇菜。即使是赢下了美国最流行的电视智力竞赛之一——Jeopardy!（危险边缘）的超级计算机沃森，表现也同样乏善可陈。

在之前的一次人工智能界顶尖国际会议上，勒维克发表了一篇出色的论文。这位来自多伦多大学的计算机科学家，在研究过上述问题之后，把人工智能界的几乎所有研究者都数落了一通。他认为他的同行们都忽视了人工智能学中，跟“智能”相关的这块内容。

勒维克首先拿阿兰·图灵的“图灵测试”开刀。在这一测试中，一个正常人将尝试通过一连串的问答，把被试的机器与人类区分开来。一般来说，如果一个机器能通过这样的测试，那我们就有理由认定这台机器有了一定的智能。

但勒维克反驳道，图灵测试其实毫无意义，因为其中博弈起来毫无难度可言。每年都有不少机器真枪实弹地参与到一项名为“勒布纳奖”的挑战赛中。但夺魁者其实并没有看上去那么智能；事实上，它们的表现更像是不入流的小伎俩而已，而且它们几乎生来就注定要谎话连篇。

如果一个人问一台机器“你有多高”，只要它想通过图灵测试，它就不得不顾左右而言他。事实证明，这些胜出者们都表现出了虚张声势、混淆视听的倾向——这跟真正的智能完全是背道而驰。这其中，有的程序只会装疯卖傻；而另外一些，则不断用花言巧语打乱对话者的思路，手段玩得一个炉火纯青。

所有试图拿下图灵测试的造假方式都具有同样的代表性：人工智能的真实使命是塑造智能，而非去刻意打造为了通过某类随机测试而千锤百炼的专业软件。

为了让整个领域重回正轨，勒维克呼吁人工智能界的研究者们重新考虑一个基于他与摩根斯特恩、戴维斯共同的研究成果之上、博弈难度高得多的全新测试。

他们联手创立了一套挑战方案，并称之为“温诺格拉德基模”——以纪念斯坦福大学人工智能领域的先驱人物特里·温诺格拉德（Terry Winograd，也是谷歌联合创始人拉里·佩奇的导师）。在上世纪七十年代初，温诺格拉德提出了一个问题——怎样才能发明一个能正确回答以下问题的机器：

“

“镇上的议员们拒绝给愤怒的游行者提供游行许可，因为他们担心会发生暴力行为”——是谁在担心暴力行为？

A、镇上的议员们

B、愤怒的游行者

”

勒维克、戴维斯和摩根斯特恩设计了一套类似的问题，对智力正常的普通人可谓是小菜一碟，但却能难倒只懂得求助谷歌搜索的机器智能。不少问题都被设计得让谷歌派不上用场——因为问题中出现的都是虚构的人物，根据定义，谷歌中很难存在与之匹配的条目：

“

“琼对苏珊谢了又谢，因为她伸出了援手。”是谁伸出了援手？

A、琼

B、苏珊

”

（为了让问题更难以博弈，另一种方案还将“伸出援手”改为“获得了帮助”）

有人说简单：去统计一下所有网页中，琼和苏珊谁给对方帮助的出现次数更多就好了——这当然是在玩你。事实上，要回答这个问题，任何应答者都要对人类语言的细微之处、对社会交际的本质有足够深刻的理解才行。

除此之外，还有另一类谷歌无能为力的问题，跟上文的“短吻鳄”问题本质相同：短吻鳄是真实存在的，但问题中所涉及的具体情形却几乎没有被人们讨论过。试看此例：

“

“那颗大球击穿了桌子，因为它是泡沫塑料制成的。”什么是泡沫塑料制成的？（另一种问法是把泡沫塑料换成钢材）

A、大球

B、桌子

” “

“山姆想要画一幅几位牧羊人与羊群在一起的画，但TA们看起来却更像是在玩高尔夫球。”更像是在玩高尔夫球的是：

A、牧羊人

B、羊群

”

诸如此类的问题，都是依据一种名为“指代法”的语言现象设计的。它们之所以具有挑战性，既是因为需要一定的常识基础（机器至今对此困惑不解），也是因为人们很少在网络上提及这些问题，使其无法被收入到那些庞大的数据库之中。

从更广义的角度来看，这些都是被我称为“长尾问题”的典型样例：普通的问题都可以通过网络上的撒网排查找到答案，然而那些鲜有提及的问题则往往足以让坐拥大数据的整个互联网络束手无策。多数现有的人工智能程序，都会在未能清晰无误地表述出来的问题面前败下阵来。这其实也能部分解释沃森最糗的一次表现——把多伦多当成了美国的一座城市。

同样的问题也存在于图像搜索领域，表现为两种形式：很多图片都不常见，而图片的标签也罕有重复。网上有成千上万张标记为“猫”的图片，但如果你要在谷歌图片上搜索“拿着巧克力色雪茄的潜水员”，返回的结果与之毫无关联，都是一打打雪茄、海报女郎、海滩、巧克力蛋糕的照片。然而任何一个人都能立马在脑海中构想出一个滑稽可笑的潜水员形象。

再拿“右撇子”为例。网上有无数的照片能够清晰无误地反映出一个右撇子的动作（比如扔棒球）；任何一个在图片档案库里工作的人都能够迅速将其整理出来。然而，这些图片却极少被标上“右撇子”这个标签。搜索“右撇子”时，你得到的结果往往都是一箩筐的体育明星、吉他手、高尔夫球具、钥匙链、甚至还有咖啡杯。有些还算是有一定关联，但绝大多数都压根不沾边。

勒维克把最尖锐的批评留到了论文的最后。当代的人工智能研究并不是说尚未解决这些问题；当代的人工智能是在很大程度上忽视了这些问题。

在勒维克看来，人工智能领域的研究陷入了一种“连续的一击致命主义”之中。人们总在一个又一个地追捧下一个大事件，不管是专家系统还是大数据都是如此，却从未脚踏实地地分析过人类所拥有的那些微妙而深奥的知识内容。这是一项浩大的工程，“这是在攀登险峰，而不是在门前扫雪”，勒维克写道。但这正是人工智能必须要做的。

简而言之，勒维克呼吁自己的同行们别再瞎忽悠人了。如他所说，“更全面地看待我们目前的研究尚未解决的问题，并勇于承认改换思路的需要，都将令我们受益匪浅。”换一种说法，不尽全力去钻研人类思维的错综复杂，就想用机器智能挑战人类的智力，这跟要求一只短吻鳄去完成百米跨栏有什么分别么？