Google新推出的这款app,是专门给听力障碍群体用的

我是创始人李岩:很抱歉!给自己产品做个广告,点击进来看看。  

“全球约有 4.66亿耳聋和听力障碍患者,这是非常巨大的一个数目,如果把这个数字当成是一个国家的人口的话,这个‘国家’就是世界人口第三大国了。”

远在美国的 Google AI Research Group 高级产品经理 SagarSavla,通过远程视频参与了一次在中国举行的采访会议。采访中,他展示了上述让人意想不到的统计数字。

借助技术的力量,普通人得到了能力增强,能完成过去做不到的事情,比如 Sagar 可以借助实时视频串流跨洋交流。在科技公司做产品的Sagar,想让听力障碍群体也能受惠于技术进步。

Google新推出的这款app,是专门给听力障碍群体用的

Google AI Research Group 高级产品经理 Sagar Savla

Live Transcribe 是什么?

Sagar 和他的团队已经迈出了第一步——Live Transcribe。Live Transcribe 是一个 Android 端的App,能将自动生成字幕功能引入日常对话,帮助听力障碍人群融入即时口头交流。这款 App 已于 2019 年 2 月底发布,目前支持 70 多种语言并覆盖全球80% 以上的人群。

Google新推出的这款app,是专门给听力障碍群体用的

如上所述,全球有 4.66 亿耳聋和听力障碍患者。过去,他们想要参与即兴对话和社交场合,得提前预订昂贵的手动转录服务,成本颇高,LiveTranscribe 用技术来解决了这个问题。

Live Transcribe 基于 Google 过去几十年的自动语音识别(Automatic Speech Recognition,以下简称ASR )技术积累,能把人类的语音信号转变为相应文本。YouTube 上的自动字幕生成,就是应用 ASR 技术的结果。

(安静环境下 Live Transcribe 实时字幕转录普通话测试)

2018 年,Sagar 利用 20% 的工作时间开启了 Live Transcribe这个项目。“开始不久我们立刻意识到,这其实是一个非常切实的项目。因为在 Google也有一些聋人员工,他们拿到这个产品后几乎无时无刻不在使用。启动一个月后,我们就把这个项目固定下来了,建立了相应的产品开发团队。”Sagar 对 PingWest品玩回溯起项目的发展。

值得一提的是,美国国家级院士 Dmitri Krakovsky 也加入了 Live Transcribe 项目组,他天生就是聋人,已经研究 ASR30多年。

Live Transcribe 是怎么运行的?

过去,基于 ASR 的转录系统一般都需要计算密集型模型、详尽的用户研究以及昂贵的连接服务费用。

为了降低用户使用自动连续转录服务的成本,Sagar 团队将 Live Transcribe 背后的神经网络模型分别部署在设备端和云端(GoogleCloud)。

设备端的是卷积神经网络模型,主要做声音分类的工作,能辨别 570 个声音类别,比如婴儿哭声或玻璃破碎声。

云端的神经网络模型规模大得多,主要做语音转录成文字的工作,由三个部分组成。

第一部分是声学模型,能够从音节的角度辨析说话者所说的是“Hi”还是“Hello”。

第二个部分是发音模型,可以根据识别出来的音节做拼接或组合,组成实际的单词。第三部分是语言模型,根据识别出来的单词添加适当的标点符号和停顿,以符合人类语言使用习惯。

Google新推出的这款app,是专门给听力障碍群体用的

基于云端神经网络做语音转录的好处是,对设备性能要求没这么高。Sagar 告诉 PingWest 品玩:“这意味着,Live Transcribe在一些性能较弱的低端设备上也可以正常运行。”

理想状态下只要有互联网接入,能使用 Google 服务,语音转录延迟都可以控制在 200 毫秒以内。Sagar 对 PingWest品玩表示:“在一些网络接入速度没这么快的第三世界国家,听觉障碍人群其实愿意花一点时间来获得更加准确识别的效果。因为如果没有这款产品的话,他们是很难听见的。”

落地遇到的问题

落到实际用户使用场景,Sagar 团队要解决的问题不止设备性能和网络连接。

Sagar 团队与加拉德特大学共同发起了用户体验研究,考虑了几种不同的设备:计算机、平板电脑、智能手机、小型投影仪,甚至还有 VR/AR眼镜。“考虑到产品能够具有普惠性,最终选择了成本比较低廉,大家都用得起的一种设备——智能手机”。

“第二个我们要解决的问题是,实时显示字幕的时候是否要显示字幕转录的置信度(转录后文字的可信程度)。”Sagar 说。

一开始,他们曾尝试用颜色来代表转录文字置信度,黄色代表高置信度,绿色代表中等置信度,而蓝色代表低置信度,白色单词为新文本。

Google新推出的这款app,是专门给听力障碍群体用的

Sagar 团队最终放弃了显示置信度:“经过测试,我们发现这种方式会给用户造成一个错觉,好像同一颜色的是一个词组。”

第三个要解决的问题是环境噪音,又称之为“鸡尾酒会问题”:在一个派对场景中,有很多人在交谈,机器很难识别正确的谈话对象。

“为解决此问题,我们构建了一个指示器,用于显示相对于背景噪声的用户说话音量。”Sagar说:“较亮的内部同心圆代表噪声层,代表当前环境所处的噪声级别。外部同心圆表示麦克风对说话人声音的接收状况。用户可借此收到即时反馈,了解麦克风的接收状况,以便其调整手机位置。”

将来,Sagar 团队会继续改善“鸡尾酒会问题”的解决方案,让对话者的声音更好地从多个说话对象中分离出来。Sagar 说:“LiveTranscribe 也不排除会出 iOS 版本,让更多受众用上这项服务。”

本文被转载1次

首发媒体 移动新媒体 | 转发媒体

随意打赏

google translategoogle adwordsgoogle chromegoogle drivegoogle mapgoogle卫星地图google浏览器google工具栏google新系统谷歌新pixel
提交建议
微信扫一扫,分享给好友吧。