国产输入法“四大天王”,如何借语音输入法布局未来
移动互联网已经落幕。
大的独角兽机会已经消失,人工智能的下一幕正在开启。而未来万物联网的智能世界中,语音也将变得无处不在,语音识别必然也将成为物联网终端最重要的人机交互模式。作为该技术应用最广泛的语音输入法,在智能手机普及的大背景下,取得突飞猛进的发展。其中科大讯飞与百度、搜狗、微信四家公司堪称语音输入的“四大天王”,在市场上你追我赶。其实预示了语音输入的大趋势,即手机输入法应用与人工智能语音技术的深度结合。
深度学习模型多样化,自寻特色功能点完成商业化突破
语音识别技术经过多年的发展,已经在很多领域取得了突破。语音输入“四大天王”百度、搜狗、讯飞、微信是否有新的进展?
(百度输入法官网截图)
讯飞输入法产品总监翟吉博先生对“突破”二字作了详细的阐述。他按时间线梳理了讯飞输入法的发展脉络,着重提了两个时间节点:第一个时间点,2010年10月底,讯飞发布语音云系统,对讯飞整个技术的相关的一些开发数据积累有一定付出。第二个时间点,是在2012初,讯飞国内首家深度识别网络,现在叫DNN技术(深度神经网络技术)运用到商用的系统里。百度、搜狗、微信都比讯飞推出的时间要晚。另外,讯飞在2013年还商用语音识别技术之外,还在本地推出语音识别技术,完全产品化。稍后陆续推出方言的语音识别系统,成为讯飞语音输入法的一大特色功能。
百度在这一方面也做的不错,在百度百科中,百度手机输入法是这样描述的:百度语音输入技术吸收了国际上众多语音输入系统的技术特点,结合百度海量文本数据的技术优势,解决语音识别中海量语言模型的快速一遍解码的技术难题。针对现有声学训练数据不足的特点,百度依靠技术积累弥补了声学模型训练数据不足的缺陷,使得输入法产品短时间内成功推出。
搜狗桌面事业部高级总监王砚峰先生表示,近两年各家的深度学习模型做的越来越多样化,但总体上是学术界的研究成果带着工业界往前走。搜狗也会结合产品去做一些技术方面的创新和突破,比如2016年,搜狗首家推出“语音修改”功能,帮助用户进一步在语音输入方面解放双手,但这算不上是语音核心技术的本质突破,而是核心技术在产品应用方面的突破,把“自然交互”的概念也带入语音输入之中。
(微信语音输入功能界面截图)
微信实则走了捷径,利用微信内置的语音输入,可以大幅提高输入效率,不用再选择一款具有语音输入功能的输入法了。而且在功能上进行了优化。比如原来的语音输入是有自己固定的开始和结束时间,现在的语音输入时间由你自己控制。
语音输入准确率还需提升,多维视角解决语音问题仍是挑战
语音识别技术极大的解放了人们的双手,但语音输入痛点有很多,比如口音、方言、多人说话、噪声、吞音、远场等等因素,从操作上来看,百度、搜狗、讯飞都有不同的办法方案来应对这些问题,提高语音输入的准确率。
讯飞在采取业界通用的神经网络识别技术提高识别效果的基础上,针对专项的语音问题,设计专项的算法予以改进。比如讯飞研发了一种名为前馈型序列记忆网络FSMN (Feed-forwardSequential Memory Network) 的新框架。这个框架可以把DNN、主流的双向RNNRNN很好地融合,同时各个技术点对效果的提升可以获得叠加;此外讯飞还分析算法的计算特点,还搭建了一套快速的深度学习计算平台——深度学习平台,大大提升训练效率,加快深度学习相关应用的研究进程,使得在语音识别的准确率逐步提升,达到业界最高。
百度输入法是后起之秀,通过人工智能技术赋能语音输入,采用基于 deep speech 2平台的优化声学模型训练,融合Sortagrad预训练和Fixlabel预训练的语音识别声学模型,并加入分地域声学模型,为每个省部署单独的声学模型来减轻噪音、方言对输入准确度的影响。
(搜狗输入法官网截图)
搜狗应对挑战底气十足,在王砚峰先生看来,搜狗在解决语音问题上的优点就是搜狗输入法占据的市场足够大。仅每天用户的语音输入请求量就已经突破2.4亿。在掌握巨量的口音大数据后,搜狗输入法平台会按照省市的维度,根据用户IP地址分地域标注。即便在某些地区语音识别效果较差,搜狗也能够将其挖掘出来形成训练数据,来进行进一步的优化。这个自信是建立在平台拥有极大数据量基础上的,这是搜狗的优势。
语音识别准确率达97%?数据存疑,是宣传需要
我们可以注意到一个现象,百度、搜狗、讯飞在宣传中都标注自家的语音识别准确率达97%。在一份易观发布的报告中,有数据提到,百度输入法的语音识别准确率能达到98.7%的高水准,句准确率超过91%,字准确率达到97.6%。这是一个什么概念的数字?
讯飞输入法产品总监翟吉博先生解释道,对于用户来说,识别技术最简单直接的感官就是识别率。具体来讲,按照单字去统计准确率,比如说输入了100个字,错了3个字,识别率就是97%。实际上还有一些更深入的指标,比如说整句的识别率,比如说我识别一句话,会不会去出错。再按照人理解的准确率其实是语义的准确率,有可能有些话有些字错了不影响语义的理解,但有些话有些字错了他会影响语义的理解,产生负面影响,一个个综合的指标。
那么在实际使用过程中,语音输入法的准确率真的能达到97%这个近乎完美的高度么?
(讯飞输入法官网截图)
当然不是。翟吉博先生表示,讯飞对于识别效果,之前不是很刻意的去宣传准确率达97%这个点。这实际是一个PR潮流,大家都跟风去宣传自己的识别率。王砚峰先生也明确表示,搜狗的97%是委托第三方评测机构,在考虑多种环境、口音和性别以及垂直场景的输入内容(如聊天、地图、购物、搜索等)情况下,对输入法进行针对性评测,而后得到的评测结果的准确率。但是真实日常场景下用户说话具有非常大的随意性,同时还有极端环境和周围说话人的影响,实际上真实体验是达不到97%。
相较而言,微信则表现得低调很多,并未参与到这场市场PR战中,大概是因为语音输入在整个微信产品架构的权重远未达到如百度、搜狗、讯飞公司的高度,仅仅是一个增强用户体验的功能而已。
物联网市场已迎来爆发点,未来语音识别技术的能力将超过人类
人工智能领域的领军人物、百度首席科学家吴恩达博士曾发表一个观点:语音识别会推动物联网的革命。我们可以预见物联网时代,语音识别技术在其中发挥的关键作用。未来,他们到底会融合到一个什么样的高度?
“讯飞输入法之父”翟吉博先生表示,随着物联网和人工智能产业的发展,语音识别技术将会覆盖几乎所有人机交互场景及设备,智能语音技术会在电视、空调等智能家电、机器人、VR、AR等设备上得到最基础和广泛的应用。通过语音交互与物联网深度结合让物联网产品互联化、智能化,比如可以识别家庭成员的个性化语音操控。
他甚至十分乐观的断定,物联网市场已迎来爆发点,语音识别技术的融入将带来巨大的发展空间,未来语音识别技术的能力将可以达到媲美甚至超过人类的程度。
在搜狗王砚峰先生看来,语音识别技术与物联网的结合,一定是语音识别加上自然交互、也就是构建在语义理解之上的对话和问答去看的。单纯的语音识别本身不能让价值最大化,或者是说,如果你只有语音识别,你只能在这个产业链条当中占据极小的一个个环节。
所以对于一个技术公司来讲,是需要把整体的交互环节全部打通,才能在未来的物联网当中产生足够大的价值。手机上的输入法上和智能设备上的,其实是不完全一样的,在手机的输入法上,使用语音输入的场景,绝大部分都是QQ聊天或者微信聊天,完成的是人与人之间沟通,这时候语音识别只需要忠实的把语音转化成文字。但是在物联网环境下,是人对着机器说话的,你需要得到机器的反馈,所以这个实际的过程就是交互,机器在自然语言理解方面的能力,对话和问答的能力,才是更加决定体验的关键要素。
他并给出了自己的一个判断:单纯从语音技术发展上或者说语音识别技术的发展上来看,一定是说朝着一个更远场更嘈杂的环境以及从以前的单人讲话实现未来的多人讲话,这是技术优化或者发展的必然趋势。
语音识别技术将成为物联网基础设施 影响深远
综合比较国产输入法“四大天王”,百度在技术层面的积累深厚,其研发的Deep Speech 2 是革命性的道路,但这条路还没有走通。讯飞在技术变成 To B解决方案上十分成熟,产业化布局较早,能很好的将产品和方案应用到行业中。而搜狗不仅能掌握最先进的核心技术,还能很好的将核心技术成果转化到自己的产品创新上,为用户创造很好的输入体验。微信从腾讯研究院并入微信大架构,语音输入也在不断的迭代中,成为微信生态中,必不可缺少的一环。
就目前来看,提高输入法的速度和准确率仍然是手机输入法的关键任务。在人工智能深入发展的大趋势下,百度、搜狗、讯飞等公司都利用自身的大数据沉淀,将手机输入法技术与人工智能技术深度结合,也将成为未来语音技术发展的大方向。我们有理由相信,未来的语音识别技术,将更深入的影响到普罗大众的日常生活,成为未来物联网的基础设施。
(由衷感谢讯飞输入法产品总监翟吉博先生、搜狗桌面事业部高级总监王砚峰先生接受采访,为本文贡献观点。部分内容基于媒体公开信息、报道。)