Google新推出的这款app，是专门给听力障碍群体用的

移动新媒体 • 6年前扫码分享

“全球约有 4.66亿耳聋和听力障碍患者，这是非常巨大的一个数目，如果把这个数字当成是一个国家的人口的话，这个‘国家’就是世界人口第三大国了。”

远在美国的 Google AI Research Group 高级产品经理 SagarSavla，通过远程视频参与了一次在中国举行的采访会议。采访中，他展示了上述让人意想不到的统计数字。

借助技术的力量，普通人得到了能力增强，能完成过去做不到的事情，比如 Sagar 可以借助实时视频串流跨洋交流。在科技公司做产品的Sagar，想让听力障碍群体也能受惠于技术进步。

Google AI Research Group 高级产品经理 Sagar Savla

Live Transcribe 是什么？

Sagar 和他的团队已经迈出了第一步——Live Transcribe。Live Transcribe 是一个 Android 端的App，能将自动生成字幕功能引入日常对话，帮助听力障碍人群融入即时口头交流。这款 App 已于 2019 年 2 月底发布，目前支持 70 多种语言并覆盖全球80% 以上的人群。

如上所述，全球有 4.66 亿耳聋和听力障碍患者。过去，他们想要参与即兴对话和社交场合，得提前预订昂贵的手动转录服务，成本颇高，LiveTranscribe 用技术来解决了这个问题。

Live Transcribe 基于 Google 过去几十年的自动语音识别（Automatic Speech Recognition，以下简称ASR ）技术积累，能把人类的语音信号转变为相应文本。YouTube 上的自动字幕生成，就是应用 ASR 技术的结果。

（安静环境下 Live Transcribe 实时字幕转录普通话测试）

2018 年，Sagar 利用 20% 的工作时间开启了 Live Transcribe这个项目。“开始不久我们立刻意识到，这其实是一个非常切实的项目。因为在 Google也有一些聋人员工，他们拿到这个产品后几乎无时无刻不在使用。启动一个月后，我们就把这个项目固定下来了，建立了相应的产品开发团队。”Sagar 对 PingWest品玩回溯起项目的发展。

值得一提的是，美国国家级院士 Dmitri Krakovsky 也加入了 Live Transcribe 项目组，他天生就是聋人，已经研究 ASR30多年。

Live Transcribe 是怎么运行的？

过去，基于 ASR 的转录系统一般都需要计算密集型模型、详尽的用户研究以及昂贵的连接服务费用。

为了降低用户使用自动连续转录服务的成本，Sagar 团队将 Live Transcribe 背后的神经网络模型分别部署在设备端和云端（GoogleCloud）。

设备端的是卷积神经网络模型，主要做声音分类的工作，能辨别 570 个声音类别，比如婴儿哭声或玻璃破碎声。

云端的神经网络模型规模大得多，主要做语音转录成文字的工作，由三个部分组成。

第一部分是声学模型，能够从音节的角度辨析说话者所说的是“Hi”还是“Hello”。

第二个部分是发音模型，可以根据识别出来的音节做拼接或组合，组成实际的单词。第三部分是语言模型，根据识别出来的单词添加适当的标点符号和停顿，以符合人类语言使用习惯。