搜狗发布实时语音翻译不过想干掉同声传译还没那么简单

36氪 • 8年前扫码分享

11月21日，搜狗推出了语音实时翻译功能——四天前的乌镇互联网大会，搜狗CEO王小川用它辅助了自己的演讲，随着他说话，屏幕上既出现了机器识别的中文，也有实时英文翻译。整个翻译的过程，只需要两秒。

这是一项叠加了语音识别和机器翻译的技术。之所以搜狗的语音团队涉足翻译，是因为这两个领域在技术上近水楼台，“随着技术慢慢交叠融合，我们发现语音识别和机器翻译都是序列到序列的过程。可以结合着做。” 搜狗语音交互中心技术负责人陈伟说。

搜狗发布实时语音翻译不过想干掉同声传译还没那么简单

搜狗实时语音翻译工具的运作流程

机器翻译并不是新生产品。传统的机器翻译，需要把整个建模流程分成对齐模型、分层模型等多个模型，每个模型完成特定的很小的功能，最终串起来完成复杂的翻译系统。而每个模型的错误，也会延续到下一个环节的模型中。

搜狗的实时语音翻译，在技术路径上不同于传统的机器翻译，采用端到端的神经网络翻译技术。具体而言，是把多个模型融合成一个统一的模型，直接把影射文本变成输出文本。相对于传统的模式，准确率可以提升30%－40%。

据搜狗方面的测算，目前搜狗语音识别的准确率在97%，这与科大讯飞公布的数据相当，搜狗语音翻译的准确率可以达到90%。

不过包括搜狗在内，目前谷歌、微软、科大讯飞等科技公司推出的语音识别产品，准确率均收到环境、话筒距离、口语标准程度等外部因素影响。例如，当出现一个以上的讲话者，机器识别就会遇到困难。

真正能让这些AI公司在准确性上决出胜负的，还是数据。“深度学习的技术对各家而言没有特别的隐私而言，各家的技术发布只是体现在时间差上，并不代表其他人没有能力做出来。真正的壁垒还是在数据上，决定了最后的效果。”陈伟表示。

搜狗的两款主要产品是搜索引擎和输入法，具有天然的数据池的属性。然而目前谷歌、微软、百度均有自己的搜索引擎，10月份锤子的发布会后科大讯飞的输入法也借势走热，搜狗处在一个强敌林立的市场里，仍需尽力扩大数据来源。

现阶段，搜狗的语音输入日频次达到1.9亿次，每日搜集的用户语音语料从三个月前发布语音交互引擎知音时的12万小时，增加到16万小时。

不过谈变现还为时尚早。由于单纯比拼技术难以构建门槛，AI产品的当务之急是在产业链上下游找到合适的落地场景，积累用户量，这也考验厂商整合资源的能力。

目前搜狗的AI场景目前锁定了三大方向：车载、智能家居和户外可穿戴设备，除了已发布的车载产品，搜狗目前同魅族盒子、微信手表、大白遥控器等企业达成了合作。搜狗语音交互中心负责人王砚峰透露，明年上半年会发布几家与电视厂商的合作。与入口级硬件企业合作，是AI公司获取数据的主流途径之一。

人工智能电影《Her》中的人机交互场景，已经越来越近，不过现在还远不到同传们需要焦虑的时候。

搜狗发布实时语音翻译 不过想干掉同声传译还没那么简单