为什么亚马逊Echo和Google Home至今还不能辨别“谁在说话”

加速会 • 8年前扫码分享

编者按：本文来自微信公众号 “站在钟屿石岬角”（ID：gaze_around）

原文：Why Amazon Echo And Google Home Can’t Tell Who’s Talking–Yet

作者：Jared Newman，科技作者，为Fast Company，PCWorld等多家媒体供稿

翻译：宋涵宇

与Alexa或Google Assistant的对话理应是个性化的。举例来说，在一个Google Home的推广视频中，一对夫妻分别呼叫无所不能的AI语音助手，询问他们当天的日程安排，他们分别得到了各自单独的答复。

但在现实当中，Echo和Google Home还不能实现这一点。当有人说话时，两款产品都无法识别说话人的身份。Echo不能直接识别，还需要通过进一步操作来获取用户的个人信息（一个PIN码），并且这个PIN码只能用于在亚马逊平台购物时区分不同身份的用户。Google Home则完全不支持多用户功能。

我们相信Amazon和Google对于通过声音识别不同用户的技术很感兴趣。上周《时代周刊》的记者Lisa Eadicicco发布报道称，Amazon已经在为Alexa开发声纹识别技术，虽然这篇文章并没有给出具体的时间线，也没有说明这项技术是否会最终发布。但我们从声纹识别领域的硬件和软件公司中得到的反馈看来，让这些语音控制设备去识别不同用户的声音比想象中要艰难很多。

为什么亚马逊Echo和Google Home至今还不能辨别“谁在说话”

对声音信号的转换丢失了部分信息

当你和Echo对话时，他并不会只是简单地把所有声音传送到云端。事实上，设备会通过自带处理器识别跟随唤醒词Alexa的指令，然后将其传送到Amazon的服务器来解读。

由于设备需要去除噪音，回声，混响，使得它难以对听到的发声者的身份进行识别。

自带的处理器也可以进行降噪的工作，通过算法减少环境中的噪声，回声和混响，使得用户的声音更加突出。因此，Echo能够更容易检测到唤醒词和其他命令，即使声音是从房间的另一端传来的，或者背景环境中有其他人在说话或电视发出的噪音。

那么问题就来了，“由于设备需要去除噪音，回声，混响，使得它难以对听到的发声者的身份进行识别。”Conexant语音部门副总裁Vineet Ganju说道。（Conexant为亚马逊提供用于Alexa语音助手的语音识别软硬件解决方案）

“一方面，设备能够从嘈杂的背景声音中捕捉到用户的声音，”Ganju说，“另一方面，用户声音的一些细节特征也因此丢失了，这使得对声音的进一步识别变得困难。”

Sensory公司的CEO Todd Mozer也认为对Echo这样的远场语音设备来说，识别谁在说话是很困难的。Sensory公司为硬件厂商提供语音识别解决方案，包括辨识不同的用户，但他们发现随着信号/噪声比例提高，设备的表现随之变差。

”降噪和从噪声中分离语音的处理对于用户身份的识别有非常大的影响，目前为止，市场上还没有产品同时处理好用户身份识别，远场语音和噪声处理。”Mozer说道。

为什么亚马逊Echo和Google Home至今还不能辨别“谁在说话”

不同的解决方案

识别不同的声音并不是不能解决的，但是关于如何解决这个问题有不同的解决方法，每种解决方法又面临着不同的难题。

NXP公司的消费和工业应用处理器部门主管Leonardo Azevedo认为设备厂商可以在加工过的声音之外直接处理原始语音。原始语音可以用来识别用户身份，而加工过的声音用来提供信息，相当于两种声音信号分别用来提供不同的信息。（NXP公司为语音设备厂商提供硬件和软件解决方案）

“他们有未经过处理的原始语音材料，”Azevedo说，“如果他们在硬件设备中加入一些特定的算法，就能够识别用户的身份，然后他们可以把指令发送到云端，云端就能够识别出这是Leo，或者这是Justin。”

然而，Azevedo指出这个解决方案不一定会很容易实现。运行一个独立的算法来识别用户身份可能会降低语音助手的响应速度。为此，NXP与Amazon和Google合作来加速本地设备的运算速度，有望实现两种算法分别同时独立运行。

在云端分析原始语音数据是另一个选项，但是这也会使得响应速度变慢。Azevedo认为对用户身份的识别的工作至少有一部分应该由本地设备来处理。“在本地设备上处理地更多，那么数据传送到云端所需的时间就更短，处理效果就更好”，他说。

为什么亚马逊Echo和Google Home至今还不能辨别“谁在说话”

Conexant认为可以通过提高本地处理器的算法、与Sensory这样的公司合作对用户身份识别进行预处理来解决这个问题。换句话说，通过实验，公司可以找到一种不会丢失用户声音特征的降噪方式。

“有一部分对声音的降噪处理不会影响用户身份识别，而有一些则会对其产生很大影响，”Ganju说道。“所以我们需要做的就是找到哪些处理方式不会对其产生影响，然后我们会集中精力研究如何通过这样的处理方式来降噪，并且找到哪些降噪的处理方式对用户身份识别会产生很大干扰，就尽量不要用这样的方式处理。”

软件端

即使基础的识别工作解决了，Amazon和Google还是有很多事情要做。举例来说，Google需要在他的后台增加对多用户功能的支持，两家公司都需要研究在不同用户之间切换的功能。

Sensory公司的Todd Mozer提到了另外一种困难：用户最终还是需要去告诉他们的语音助手，把不同的声音和不同的用户身份对上号。这会使得开始的初始化设置变得非常复杂，与语音助手类产品本身追求的简单易用的初衷不符。

看上去Google Home和Amazon Echo解决语音识别问题不仅仅是时间问题那么简单。

“在一款被多个用户使用的产品上鉴别用户身份是件复杂的工作，因为你不想花太多时间去训练这款产品去鉴别用户，那样做太麻烦了，”Mozer说。看上去Google Home和Amazon Echo解决语音识别问题仅仅是时间问题，但是可能这两家公司还有更加重要的任务要先解决，比如支持更多的语言。Google Home目前只支持美式英语，而Alexa仅支持美式英语，英式英语和德语。NXP公司的Leonardo Azevedo认为两家公司都希望将他们的产品推广到更多的国家，这能够使他们增加销售额，但同时也会拖慢他们在用户身份识别功能上的研发进度。

“当我们与和Google和Amazon公司交流时，他们都表示希望能够实现这项功能”，Azevedo说道，“问题是何时才能真正实现。”

翻译 / 宋涵宇

WeChat / shy_996