搜狗同传3.0上线，AI同传首次实现“能听会看会思考”

雷锋网 • 5年前扫码分享

12月21日，首个具备多模态认知能力的同传系统——搜狗同传3.0在极客公园创新大会上使用。基于搜狗独创的“语境引擎”，搜狗同传3.0以“多模态”和“自主学习“为核心，加入视觉和思维能力，让机器同传不仅会听，还首次具备了会看、能理解会推理的能力，引领AI同传进入了多模态认知时代。

搜狗同传技术再升级，解锁两项“超能力”

AI同传一直是人工智能技术的重点领域。2016年，搜狗在“第三届乌镇互联网大会”上发布行业第一个商用AI同传产品——搜狗同传1.0，在打造了这一全新品类的同时，用AI技术助力同声传译行业，有效推动了跨语言的交流和表达。2018年发布的搜狗同传2.0，为用户提供了更丰富的个性化定制能力，能够基于用户实时定制识别和翻译。两代搜狗同传的核心能力都在于“听”，都是利用搜狗领先的语音识别和机器翻译等技术，将声音实时转换为相应的中英文字幕。

但通过数千场机器同传的实际应用，搜狗发现，业内主流的语音同传系统无法稳定并且高质量的满足多样化的演讲场合需求，存在演讲内容中专业词汇的识别和翻译效果不佳的情况，这在很大程度上影响了机器同传的实用效果。

为了解决上述问题，搜狗在AI同传领域首创“语境引擎”，使得搜狗同传在“能听”的基础上，又解锁了“会看”和“能理解会推理”两项新技能，不仅能够通过“观看”自主学习演讲者的报告内容，更能够通过“理解”和“思考”，做出高质量的识别和翻译，这再次引领了行业的技术进步。

AI同传技术新突破，与演讲者一起“边看边思考”

“会看”，意味着同传首次具备了视觉能力。基于搜狗OCR（光学字符识别）技术，搜狗同传可以实时准确“观看”演讲者的PPT内容，将PPT的图像内容转化为语言文字，充分获取到当前演讲的个性化信息。

“能理解会推理”，则意味着同传具备了与人“共情”的能力。这归功于搜狗语境引擎的应用。该技术的原理是基于搜狗知识图谱和百科的知识推理能力，将通过OCR技术获取的演讲内容自动生成核心知识，并通过搜狗领先的知识图谱-搜狗知立方实时推理拓展，获取充分的背景知识，同时基于搜狗百科的中英术语库得到中英双语对照，实时优化同传识别和翻译的效果。

基于搜狗语境引擎开发的搜狗同传3.0 为演讲者构建了个性化的认知语境，能够跟随演讲者一起“思考”，无疑是AI同传领域的又一大技术创新。特别是经过多重“感官”的调用，搜狗同传不仅可以做到翻译更加快速和准确，而且会更加自然，更加专业，更加智能。数据显示，在“听”“看”“思考”三位一体的作用下，搜狗多模态同传系统针对PPT内容的识别准确率提升21.7%，翻译正确率提升40.3％。未来，这一系统将会在大会演讲、视频翻译、实时直播字幕等场景得到应用，为人们带来准确流畅的同声传译服务。