苹果发布最新研究报告披露语音助手Siri背后工作机制

腾讯科技 • 7年前扫码分享

我是创始人李岩：很抱歉！给自己产品做个广告，点击进来看看。

腾讯科技讯据外媒报道，苹果在其机器学习博客上发表了一份最新的研究报告，深入剖析了语音助手Siri背后的工作机制，包括“Hey Siri”命令背后的软件是如何运作的，以及该公司如何使用神经网络转换语音的声波图以便将它从背景中过滤出来。

周三发布的这篇新文章主要集中在直接运行于iPhone或Apple Watch上的Siri部分。文章特别关注的是检测器，这是一个专门的语音识别器，时刻监听着唤醒指令，同时它也必须处理其他的声音。

苹果发布最新研究报告披露语音助手Siri背后工作机制

苹果指出，iPhone或Apple Watch上的硬件可以将你的语音转换成一连串的瞬时波形样本，速度为每秒1.6万个。每次将大约0.2秒的音频输入到一个“深度神经网络”，该网络将听到的内容分类，如果它收听到的内容是激活指令，就会将类似指令传输到操作系统的其他部分。

苹果已经设定了几个敏感阈值。如果得分在中值范围内，软件会在几秒钟内再次认真听这个短语以确保它不会被再次遗漏。

初始激活后，波形达到Siri服务器。如果主语音识别器听到的不是“Hey Siri”而是别的短语比如“Hey Seriously”，那么服务器就会向手机发送一个取消信号，让Siri系统回复到休眠状态。

苹果发布最新研究报告披露语音助手Siri背后工作机制

苹果还制定了一些与语音相关的规范，发音接近Siri的“Syria”（叙利亚）和“serious”（严肃的）等词语将被放在上下文中进行识别。

Apple Watch在整合Siri助手时遇到的困难更大一些，因为它的电池容量和处理能力都相对更小。为了避开这些问题，Apple Watch的“Hey Siri”检测器只有在手表启动时才会运行，它可以检测到手腕抬起的手势，如果用户做出这样的手势，手表才会打开屏幕。

苹果的机器学习博客“Machine Language Journal”于7月19日上线，第一篇文章题为《改进合成图像的现实主义》，讨论了用排序图像训练神经网络的过程。第一篇文章用眼睛和目光为例解释了训练神经网络需要大量的数据集，但是收集这些数据非常困难，可能不利于研发高效的机器学习技术。

苹果正在邀请机器学习研究人员、学生、工程师和开发人员向他们提出问题和反馈信息。

这个网站似乎是苹果承诺的一部分，它允许研究人员发表他们发现的内容以及探讨他们的学术成果。苹果人工智能研究总监鲁斯-萨拉克胡迪诺夫（Russ Salakhutdinov）去年12月宣布，苹果的政策发生了巨大的变化。（编译/林靖东）

苹果发布最新研究报告 披露语音助手Siri背后工作机制