少说三个字母,成了 Siri 近十年最大升级

砍柴网  •  扫码分享
我是创始人李岩:很抱歉!给自己产品做个广告,点击进来看看。  

来源:雷 科技   

大家平时有使用 手机 语音助手的习惯吗?

作为人工智能技术在我们日常生活中最直观的应用,手机的智能语音助手却总是以一副 " 人工智障 " 的面孔出现在大家身边。无论是外来的 Alexa、Google Assistant、Siri 还是国内的小爱、小度,由于其智能程度和真正的 " 人类 " 还差很长一段距离,这也导致我们能在网上找到许多 " 戏耍 " 语音助手,让它进入死锁不断循环的有趣场面。

苹果 的 Siri,毫无疑问就是 " 人工智障 " 中的 " 佼佼者 "。

对于 Siri 的 " 智能 " 程度,一句话来概括就是 " 甚至还不如联通的语音机器人 ",毕竟即使是联通的机器客服,也只会在听到 " 机器人 " 这个关键词后播放语音回复,而苹果的 Siri 可是能在成语接龙中被 " 为所欲为 " 自己进入无限循环的存在。

少说三个字母,成了 Siri 近十年最大升级 图片来源:Apple

不过从工作原理来说,Siri 能有这样的 " 人工智障 " 表现其实也说得过去: Siri 是目前手机语音助手中为数不多的可以选择不向苹果分享数据、甚至可以只在设备本地运行的语音助手。 这些对用户信息的隐私处理让 Siri 成为了可能是 " 发展最慢 " 的语音助手—— Siri 的第一个初始版本诞生于 2011 年 10 月,诞生至今已经超越 10 年。但在部分冠军爱你功能上,Siri 能实现的甚至还不如一些国内公司的 " 后起之辈 "。

不过对于广大 Siri 用户来说,未来使用 Siri 的体验有望踏上一个全新的台阶,因为 Siri 终于要迎来一个 " 史诗级 " 的升级:

以后使用 Siri 时,不再需要喊 "Hey Siri" 了,直接喊 Siri 就可以了。

说实话,取消 "Hey" 直接 "Siri" 并不能从根本解决 Siri 不好用这个问题,无论你怎么缩减 Siri 的唤醒词,Siri 能实现的功能依旧只有这么点: 你依然没办法用一句话让 Siri 控制两个不同的智能 家电 ,也不能阻止 Siri 用网页搜索的结果回复你提出的复杂问题,更不能像 Google Assistant 或小爱同学那样帮你自动接电话。

但从技术层面来看,取消 "Hey" 直接 "Siri" 背后的技术挑战其实并不简单。

可能有人认为取消 "Hey" 背后没什么单独,甚至有效降低了 Siri 识别用户语音所消耗的时间。如果我们只是简单把 "Hey" 从唤醒词中移除,那确实很简单。但在此之前,我们还需要考虑另一个问题: 如何保证用户是真的需要唤醒语音助手?

少说三个字母,成了 Siri 近十年最大升级 不能理解?那我们就要从语音助手唤醒词背后的选择条件开始说起了。怎样的短语才是一个 " 好的 " 语音唤醒词?从产品的角度来看,除了便于传播之外我们还要考虑两个从一定程度上互斥的因素:容易触发和不容易误触。

我们先说第一个 " 容易触发 " 的问题,顾名思义,语音助手的唤醒词一定要容易触发,具体来说就是这个唤醒词必须好读、不容易读错,同时也不能太长,最好让用户可以在一句话里一口气说完唤醒词和语音指令。

但另一方面,唤醒词也不能太短,更不能是日常生活中的高频常用词。 试想一下如果 Siri 的触发词时 "Hey",那高频误触只会让 Siri 变得更加难用。更重要的是触发词必须具有 " 排他性 ",即当用户说出 " 触发词 " 时,用户想且只想触发语音助手。 亚马逊的 Alexa 就是语音助手在误触这方面的典型代表:

由于亚马逊语音助手 Alexa 名字过于大众,且智能设备的触发灵敏度过高,这些设备会对日常生活中所有的 "Alexa" 做出响应,甚至会被电影电视剧中包含 Alexa 的台词唤醒。 这也是从唤醒词中去掉 "Hey" 背后的技术难点:修改唤醒词很容易,但在缩短唤醒词后避免语音助手误触,这并不简单。

当然有人认为语音助手误触无所谓,毕竟误触也就手机上的事,把悬浮球划掉不就好了。但事实并非如此,语音助手触发词背后其实还藏着更长远的问题:智能助手的边界应该在哪里?

在各企业的设想中,智能助手就像是一个贴心的 " 管家 ",这一点在智能家居品牌中尤为常见:作为用户的我们只要一开口,家里的电器就会自动工作。

但实际上,还需要依靠语音交互的智能家居已经是智能家居 2.0 时代的 " 过时产物 " 了,在智能家居 3.0 中,智能助手不再需要你的语音指令,就可以在幕后 " 观察 " 用户的状态并

少说三个字母,成了 Siri 近十年最大升级 图片来源:Veer 图库授权

" 主动出击 " 调整智能家居的设置。在智能家居体系中,这个特性叫 " 无感化 ",即用户不需要给出实质性指令(语音、文字或机械开关),智能家居系统就会根据用户的实际状况主动响应。

在技术成熟的情况下,一个优秀的智能家居系统能主动识别用户的真实场景。但对部分关注个人隐私的用户来说,这种时刻被机器、算法甚至屏幕背后的人观察的生活却一刻都不能忍受。这种体验从好的方面看叫 " 无感化 ",但从另一面看,这仿佛就在 " 黑镜 " 中生活,是鱼缸中的 " 人类生活观察样本 "。

以此次话题中心的 Hey Siri 为例:既然我们可以只用 Siri 来唤醒 Siri,那这至少意味着两件事:

1. 手机时时刻刻在录音,以响应我的语音唤醒;

2. 手机在录音后还会经过处理,明白我说的话是什么意思,知道我什么时候想唤醒 Siri,什么时候只是说话时提到。

而与其他智能助手不同的是,Siri 在这里保持着高度的 " 克制 ",即使 Siri 能做到刚刚提到的两件事,但设备端处理的机制保证录音数据只会保存在手机本地,不会上传到其他服务器中(飞行模式可以证明这一点);另外本地数据也在硬件加密设备中保存。

但从 iPhone 4S 的长按触发 Siri 到后来的语音触发 Siri,再到手表的 " 抬腕 " 唤醒以及未来的 " 免 Hey 直接 Siri",可以预见的是智能语音助手必将进一步朝着 " 无感化 " 进发。 至于未来的语音助手还能不能把持住功能与隐私之间的界限,以及绝大多数用户究竟担不担心自己被 " 大数据 ",之前魅族的 " 三零手机 " 的市场回应已经给了我们的答案。

随意打赏

提交建议
微信扫一扫,分享给好友吧。