除了语音引擎,搜狗用黑科技还做了这些

我是创始人李岩:很抱歉!给自己产品做个广告,点击进来看看。  

   文/黑君

   搜狗突围

究竟是资本的到来助推了AI的发展,还是AI研发的进步触动了资本的神经,总之,2016年成了AI年。在这一轮AI风潮中,语音识别俨然取代了VR、AR等概念,“攻陷”了大众的眼球,也成为了各家科技公司必争之地。

仅就下半年风头正劲、曝光最多的,当属搜狗。

先是在奇点大会上,实时语音识别大出风头,将搜狗CEO王小川的演讲内容同步为文字,显示在现场屏幕上;

  继而,搜狗又正式对外发布 搜狗知音引擎 ――一个可以以语音对话、 多轮交流的语音引擎;

在11月世界互联网大会上,搜狗CEO王小川又再次让公司研发的实时同传大放异彩。机器翻译准确率达到90%,据说接近人类水平;

11月21日,搜狗最先公布,其语音识别的准确率已经达到了97%。

这些功能的背后,则是研发人员的不断测试、调整、技术攻克。看似简单的“搜狗知音引擎”不仅具有“灵敏的耳朵”,更拥有一个“聪明的大脑”,以及强大的语音合成能力。

在外界眼里,近年来搜狗最大的新闻则是腾讯入股搜狗,搜狗是什么时候开始默默致力于AI研发,谁让这些功能得以实现?语音识别技术研发到了什么程度?搜狗语音识别还有什么秘密武器?

带着一系列疑问,黑君独家采访搜狗语音交互中心语音技术部负责人,为大家揭晓台前幕后。

幕后英雄团队

   无论是知音语音引擎、还是实时翻译,技术都来自于搜狗语音交互技中心 ,脱胎于4年前的一个语音小组,今年1月份已经升格为中心。

如今,这个技术小组已经扩增至60多人,据说,还在增加研发人员。

陈伟是语音交互中心语音部技术负责人,2012年加盟搜狗,是语音组最早的成员之一。

正是搜狗的语音交互技术,让搜狗在AI领域大放光彩。

除了语音引擎,搜狗用黑科技还做了这些

○陈伟,搜狗公司桌面事业部专家研究员,语音交互中心语音技术部负责人。负责搜狗语音识别、语音合成、音乐检索、声纹识别、手写识别、机器翻译等多项技术的研发工作,同时负责搜狗知音引擎语音技术的研发。

97%准确率的打开方式

11月21日,搜狗率先公布自己的语音识别数据,准确率在97%。

   黑君: 97%的准确率是指测试了哪些维度之后的结果?

   陈伟: 准确率97%的意思是代表说100个字错了3个字,是指错误率是3%。

   黑君: 是一个人说了100个字,错了3个字吗?

   陈伟: 我们 准确率97%这个数据,是由800个人,每个人说200字,共计16万字测试后的结果,错了3%。

   黑君: 是在什么条件下的16万字?

   陈伟: 在北京、深圳两地各400人,在学校进行,主要测试口音和噪声。

   黑君: 行业都是这么测试的吗?

   陈伟: 其他公司我不清楚,我们主要是委托了第三方机构来做的测试。现在 每天 用搜狗输入法的语音 数据就有1.9亿次 ,每天差不多能产生16万小时的数据。

语音识别谁家强

随着人工智能的风潮席卷,作为感知识别的语音识别被越来越多的提及。我们甚至可以看到,多家科技公司都在争抢语音识别的头把交椅,谁能最终走向宝座,背后需要强大的技术支撑。

   黑君: 语音识别的难点在什么地方?怎样辨别谁家技术力量更强?

   陈伟: 交互逻辑里最关键的几个技术,

1、把语音转化成文字这种语音识别的能力;

2、语义理解能力;

3、语义理解之后让机器来说话,语音播报的能力。

整个交互过程,涵盖了接收信息、理解并反馈、输出答案整个过程。

  关于“语音识别技术哪家强”的问题,要从多个维度来看,一种是评测――来自第三方、内部、合作厂商;一种是技术维度―― 使用识别技术的前沿程度以及效果 ;还有产品维度(我认为这是最重要的)――用户体验和反馈是否足够好。 目前看来,我们搜狗的技术是领先的。

   黑君: 语音识别准确率提高的障碍在什么地方?

   陈伟: 语音识别的难点――口音、噪音等;

比如,车载设备需要在车高速行驶时风声、雨声,汽车鸣笛声以及各种干扰声环境下,清晰辨别指令。

方言、中英文混杂的语言习惯等等。还有就是给机器学习大量的语料数据。我们的数据则是来自于用户每天接近2亿次的语音输入搜索请求。

商业化进行时

作为最接地气的感知识别技术,语音识别商业化的“天赋”正在凸显。

搜狗通过数据分析发现,人们使用语音最为频繁的场景是在wifi环境下,以及餐厅里。

目前,搜狗认为,车体内、家居环境以及穿戴设备领域都是语音识别适用的领域。

   黑君: 搜狗一直致力于toC端的业务,有没有toB端的打算?

   陈伟: 我们发现语音交互特别适合在车里面,因为用户的双手被方向盘固定,这时候使用语音是非常合适的一个场景,通过语言唤醒语音助手之后,不但解放双手,还有双眼,更加专注于驾驶,保证行车安全。

目前,搜狗已经和四维图新和飞歌已经就车载仪器展开了合作。

   黑君: 还有哪些环境适应于语音功能?

   陈伟: 居家环境中,智能家居设备。目前人机最主要的交互方式还是触摸,触觉也符合人类天性,但是前提需要有一块屏充当图形界面。语音交互近年来被认为是下一代交互方式,更加自然,有些产品像亚马逊的Echo等智能音箱是没有屏的,你必须选择用语音与其交流,这是一个很好的场景商业化。而且语音识别在这些场景中应用,技术上已经成熟了。

   黑君: 您说的技术已经成熟,包含了哪些技术?

   陈伟: 在技术上,搜狗已经是打造了一个闭环,这里是指可以做整个的语音交互解决方案,从语音识别、语义交互到最后的合成,提供技术合作的平台。我们欢迎合作。

虐机小测试

   陈伟: 北京天气怎么样?

   语音助手: 北京今天天气晴,最高温度9摄氏度,最低温度-4摄氏度。

   黑君: 拉萨今天天气如何?

   语音助手: 拉萨今天天气晴,最高温度13摄氏度,最低温度-4摄氏度。

   陈伟: 整个交互比较强的能力是呈现出多轮对话的能力。

   黑君: 是递进关系的轮对话吗?

   陈伟: 也不一定是递进的,能跟踪你的上文。“上海天气怎么样?”

   语音助手: 上海今天天气多云,最高温度14摄氏度。

   陈伟: 北京的呢?

   语音助手: 北京有很多云。

关于语音交互未来

在黑君看来,感知识别中的较多功能已经落地,如声纹、指纹、虹膜以及语音,包括搜狗的语音交互产品――知音引擎、实时翻译等。这些AI技术的应用受益者无疑都是普罗大众。

关于未来,陈伟说,团队努力的方向就是让语音交互更自然、更流畅,让用户在使用中体验度提升。而搜狗也将尝试更多的可能性。

欢迎关注follow黑科技,除微信公众号外,文章还同步发布于搜狐自媒体、百度百家等多家平台。

本文被转载1次

首发媒体 搜狐科技 | 转发媒体

随意打赏

搜狗知音引擎搜狗语音引擎搜狗预取引擎搜狗搜索引擎搜狗黑科技搜狗引擎
提交建议
微信扫一扫,分享给好友吧。