王小川在奇点大会演示的实时上屏技术是如何实现的?
作者:陈伟
链接:(原文跳转)http://www.zhihu.com/question/48556187/answer/111459571
来源:知乎
著作权归作者所有,转载请联系作者获得授权。
川总在极客公园奇点峰会上的语音实时听写服务主要是由我们团队完成的,从6月初接到需求、项目立项到7月16日正式演示,前后一共40余天,但是实际上整个会场语音实时听写的系统涵盖了从模型到系统各个方面的技术,也集中体现了搜狗语音团队成立4年多以来的技术积累,罗马城真的不是一天建成的。
先谈谈项目立项后面临的几个问题,首先就是项目准备时间很短,可用的川总本人的语音数据基本上没有,短期内录制大量训练数据的可能性不大,因此仅收集了少量川总语音(1000句左右)用于后续测试集进行性能评估。
其次就是目前我们支持的语音服务主要应用场景是搜狗手机输入法上的语音听写(日均PV 1.4亿次),但是语音输入法上的请求是单次识别,每次请求时长一般10秒以内,线上架构并不支持长时连续语音识别服务,因此服务架构升级的需求也很紧迫。
此外就是川总演讲的主题只有临近大会开幕才能知道,同时川总是演讲大牛,一般都是脱稿演讲,演讲内容涉及到科技、人文、历史等多个方面,内容很不固定,完全使用PPT内容基本上很难覆盖到演讲的语言习惯,当然最大的压力还是希望能够做到满意的现场识别正确率。
下面我来简单梳理下在演示现场,语音是如何实时转化为文字并且上屏的:麦克风实时采集的语音按照流式传输给后台识别服务,后台实时判断语音的起始点后将有效语音送至部署的解码器,解码器则进行语音特征提取,并在声学模型、语言模型的指导下,基于语音特征寻找最优的识别结果,当检测到语音结束后,解码器重置继续接收后续的语音进行新的解码,已解码完成的识别结果则由后台发送至显示设备完成上屏。
整个工作流程具体来看,与性能提升相关的两个部分主要是声学模型和语言模型,其中搜狗语音在声学模型上的积累是国内领先的,作为国内最早一批使用DNN进行声学建模的公司,我们也一直持续投入人力和资源进行基于深度神经网络声学建模技术的研究,目前已具备了DNN、RNN、LSTM、LSTM-CTC等建模能力,同时语音输入法积累了海量的数据更加便于我们进行模型的迭代和升级,本次演示我们使用了基于主流的LSTM-CTC的模型;而语言模型的技术则背靠了搜狗输入法还有搜索强大的NLP技术以及数据,可以快速高效的输出通用以及垂直类的语言模型,本次演示考虑到极客公园的演讲背景,我们更多的去收集了科技类特别是人工智能类别的文本数据进行了模型训练,最后我们在已完成模型的基础上进行进一步的细节优化,最终得到了不错的识别效果。此外,在系统稳定性和效率方面,我们对语音识别服务进行了全面的升级,由之前线上语音输入法仅支持有限时长的服务架构升级成了本次演示支持任意时长、连续输入的架构,更好的推动了整个系统的快速完成。
本次演示整体来说,整个团队的努力取得了令人满意的效果,再次对支持和参与本次项目的各位同事表示感谢,今后搜狗语音团队将会继续深耕语音技术的研发工作,将更多精力投入到技术与产品的结合上来,期待后续能够基于AI技术提供出更多真正解决用户刚需、精彩的产品,谢谢!
利益相关:搜狗语音团队