为什么越像人的自然语言交互工具，越容易让人失望？

钛媒体 • 5年前扫码分享

我是创始人李岩：很抱歉！给自己产品做个广告，点击进来看看。

图片来源@视觉中国

文｜脑极体

从有了Siri作为先例，拟人化已经成为了自然语言交互工具的必备能力。不论是服务于个人用户的AI语音助手，还是企业提供的智能客服，甚至是各种有语音功能的家用电器，都要做IP、造人设，几乎有了成精之势。

在大多数时候，我们认为自然语言交互的工具的拟人化可以降低用户的“恐怖谷效应”，让用户更喜欢与其交流。但最新的研究结果却表明，事实或许并非如此。

成为人类的千重套路

首先我们可以来看看，自然语言交互工具拟人化的“千重套路”。

第一步，给自己起一个人畜无害的名字。

我们常说，当你捡到一只小动物后，如果给它起了名字，那么它十有八九会成为你的宠物。AI也是一样，当自然语言交互工具拥有姓名，基本就注定了它会在成精的道路上越走越远。自然语言交互工具的名字通常是“小”字辈，既显得弱小无害又无关性别足够政治正确。

第二步，利用语音生成技术模仿人类语气。

拥有了名字之后，肯定就不能再用冷冰冰的电子音了，甚至以往语音生成技术管用的真人录音+规则匹配的模式也略显死板。这时便出现了以谷歌WaveNet为代表的神经网络语音生成，通过对真人说话方式多种特征的抓取，对语义、词性、语法包括上下文等等参数综合考虑，最终生成谷歌助手那样像真人一样说话会停顿、有思考的语气。

第三步，让对话内容更加人性化。

在自然语言交互的过程中，语音生成需要建立在文本内容之上。满足了“说话语气”的拟人化，同样也要让“说话内容”更加人性化。这时语义理解、多轮对话、自然语言生成等等技术的成熟度就变得非常重要。

例如微软在微软小冰上应用的全双工自然语言交互，就能实现“边听边想”和“节奏控制”——通过整个对话过程对用户意图进行理解，减少用户的等待时间，并且能够主动引发新话题打破沉默，自行调节回答的内容和时机。这样的对话内容通过语音生成技术“展现”出来，就可以以假乱真，让人以为自己真的在和人类对话。

最后一步，披上“人皮”。

除了技术之外，还要以一些外围模式让自然语言交互工具更加拟人化。比如为它们设计一个可爱的卡通形象，增加几条指令让它们学会一些撒娇卖萌的口头语，在交互界面上增加一些细节让人们意识不到他们在与机器对话等等。

有了这几步套路，基本就能塑造出一个“化作人形”的自然语言交互工具了。

越人性越可爱？自然语言交互工具的期望值管理

可我们从未想过的一个问题是，在实际应用时，自然语言交互工具真的越拟人化越好吗？最近宾州州立大学媒体效果研究实验室就进行了这样一项实验。

研究人员们告知志愿者，他们将在电商平台中选购数码相机，并需要和在线客服交谈咨询。这些客服背后都是智能自然语言交互系统，但研究人员对其进行人性化和响应程度上的区分。不同组的志愿者们分别会接触不同的在线客服系统，有在对话时直接告知对方自己是机器客服的，有的只展示出对话框内容，有的会通过真人头像和名字“伪装”成人类。

同时这些拟人程度不同的智能客服，又分别有着不同的响应程度。有些可以迅速精准的回答用户问题，有的却听不懂人话顾左右而言他。

在交互过后调查实验者的满意程度时，结果却令人意外。

在一般的逻辑中，我们会认为智能客服在交互时响应程度越高，人们的满意度自然也会越高。可实际情况是，在同样的响应程度下，使用者的满意程度是与智能客服的人性化程度相关的。

比如同样的交互内容，明确知道对方是机器客服的实验者就会给出80分的满意度评价，而那些伪装成人类的机器客服却只能获得60分的满意度评价。原因是当机器客服表现出较高的人性化特征时，用户对他们的期望程度也会随着上升，盼望着他们能和人类一样帮助自己解决问题，如果得不到想要的答案，则会放大失望感。

其实在我们自己应用自然语言交互时也有同样的感受，当语音助手、智能客服等等产品不能解决问题还要强行卖萌讲笑话时，我们的暴躁指数往往会呈直线上升。

说到底，自然语言交互的人性化与否是一个“用户期望值管理”问题，有时过度提升用户期望值反而会弄巧成拙。

做人容易，做工具难

但目前我们能看到一个重要的趋势是，自然语言交互人性和工具性的发展程度是不均衡的。

从技术发展的难易程度来看，让自然语言交互工具更加接近人类，远远要比让自然语言交互工具更加有效容易得多。

不管是谷歌的WaveNet还是微软的全双工自然语言交互，都足以让自然语言交互的发音模式、对话节奏等等细节无限接近人类。未来结合上计算机视觉层面，甚至机器人制作工艺层面的能力，我们可以打造出一个与人类无异的对话者。

其实在今天，我们就能看到诸如AI主播或harmony推出的索菲亚等等在视觉上极致人性化的“AI演说者”。

可这些自然语言交互解决问题的能力却没有因此提高。具体表现为：对于人类语料的理解还存在一定隔阂，尤其是小语种、老年人、儿童等等相对冷门的语料库；对于不同领域词汇的认知还不够全面，很多时候涉及到一些垂直产业时，AI往往会进入知识盲区。

如此以来，帮助自然语言交互的“工具性”追赶“人性”或许将成为未来很长一段时间内的产业热潮。例如建立各个细分产业领域的知识图谱、累积词汇库，或收集不同人群不同方言语种的语料库用于AI训练。

在技术的不断追赶之下，人们对自然语言交互工具的期望值不断提高已经是一种必然，为了避免出现“短板效应”，我们或许应该投入更多精力去追求“人性”以外的东西。

更多精彩内容，关注钛媒体微信号（ID：taimeiti），或者下载钛媒体App

为什么越像人的自然语言交互工具，越容易让人失望？

本文被转载1次

首发媒体

| 转发媒体

随意打赏

自然交互方式自然语言分析自然语言技术自然语音交互语言交互自然语言自然交互