苹果机器学习期刊「Siri 三部曲」之一：通过跨带宽和跨语言初始化提升神经网络声学模型-36大数据

36大数据 • 7年前扫码分享

我是创始人李岩：很抱歉！给自己产品做个广告，点击进来看看。

近日，苹果 Siri 团队在苹果机器学习期刊上连发三文：《Improving Neural Network Acoustic Models by Cross-bandwidth and Cross-lingual Initialization》、《Inverse Text Normalization as a Labeling Problem》、《Deep Learning for Siri』s Voice: On-device Deep Mixture Density Networks for Hybrid Unit Selection Synthesis》，详实展现了苹果在语音助手 Siri 上的最新进展与成果。其中第一篇文章讨论了一项利用声学模型数据的迁移学习技术，它可以显著提升新语言版本 Siri 的精确度。

用户希望 Siri 的语音识别功能保持稳定，不受语言、设备、声音环境或者通信信道带宽的影响。正如其他监督式机器学习任务一样，高精度的获取通常需要大量的标注数据。无论何时在 Siri 中部署新的语言，或者扩展 Siri 以支持不同的音频信道带宽，我们都面临着是否有足够数据来训练声学模型的挑战。本文中，我们讨论了使用声学模型数据的迁移学习技术，该技术已经投入使用。我们展示了，表征不仅可跨语言迁移，还可以跨音频信道带宽迁移。作为一个研究案例，我们专注于以新的 Siri 语言识别超过 8 kHz 蓝牙耳机的窄带音频。我们的技术有助于显著提升新语言版本 Siri 的精确度。

任何数量的域数据

即使你只有与训练域相关的有限数据，它也很有价值。绝大多数 Siri 的使用发生在宽带音频信道，只有很少一部分发生在窄带信道（比如，8KHz 蓝牙耳机）。然而，从绝对意义上讲，苹果的大量客户在窄带信道上使用 Siri。在新语言版本的 Siri 发布之前，我们可以搜集的窄带蓝牙音频的数量是有限的。尽管如此，我们的目标仍是在第一天就为客户提供最好的体验。

2014 年年中，Siri 启动了一个使用深度神经网络（DNN）的新语音识别引擎。该引擎首先引入到美式英语的 Siri 中，截至 2015 年年中，我们已经把该引擎扩展到 13 种语言。为了实现成功扩展，我们必须使用发布前可收集的有限数量的转录数据来解决建立高质量声学模型的问题。对于宽带音频情况是这样，例如通过 iPhone 麦克风收集宽带音频，而对于通过蓝牙耳机收集的窄带音频更是如此。

一个可以解决小数量窄带蓝牙音频问题的方法是带限（band-limit）相对较多、更易收集的宽带音频。实际上，我们发现在有限数量的窄带蓝牙音频上训练的声学模型依然优于在更大数量的带限宽带音频上训练的模型，这表明了声学模型训练中域内数据的价值（图 1）。这就要求同时利用大量的宽带音频和有限的窄带音频。在这项工作中，我们在迁移学习框架中调查了神经网络初始化。

表 1 ：窄带蓝牙测试中的词错率（WER）

苹果机器学习期刊「Siri 三部曲」之一：通过跨带宽和跨语言初始化提升神经网络声学模型-36大数据