搜狗语音识别技术上线LSTM模型语音搜索体验再升级

DoNews-互联网 • 9年前扫码分享

对于互联网产品来说，技术往往是突破产品发展局限的关键要素。在语音搜索领域，随着使用场景的增加和语音技术的发展，用户比预期更快地接受并习惯了使用语音搜索功能。一个小小的麦克风按钮，解放了双手，让人们在户外场景下可以更便捷地进行搜索操作。近期，作为以技术实力著称的搜狗在技术方面再发力，上线了LSTM模型，进一步提升了语音识别正确率，希望继续通过技术发展，推动产品升级、为用户提供更好的语音搜索体验。

（搜狗语音搜索页面截图）

语音搜索的效果，主要取决于语音识别和搜索效果两个方面。搜狗语音搜索功能以搜狗搜索和搜狗输入法两大产品数亿用户的海量数据为基础，在语音识别和搜索效果两个决定性因素上皆具有行业领先优势。搜狗深耕搜索技术十几年，其搜索效果有目共睹，自然不必多说。而在语音识别方面，搜狗语音搜索作为国内最早上线DNN技术的公司之一，拥有业内顶尖的深度学习技术，也就是说，它拥有一颗聪明的、学习能力极强的大脑。而本次上线LSTM（Long-Short Term Memory）模型后，更加强了其学习能力，尤其针对用户在使用“语句”语音搜索时的效果有极大提升。

LSTM即时间递归神经网络，也被称长短时记忆模型，可以让机器根据记忆对上下文语义进行判断。在LSTM模型下，通过训练，可以让词句输入时更加准确，让机器更好地理解用户在词句输入时的“意图”，给出最准确的输入。用户在进行搜索时，前后文的语义是连续的，字与字之间、词与词之间都是有一定关系的，因此，机器识别语音时，不能只是每个字进行独立识别，还需要考虑到这种关系。尤其现今，用户在使用语音搜索时往往直接说一句话而非一个词，其对语音识别的要求就更高。引入LSTM模型后，正可以解决这个问题，有效提升语句输入时的正确率。

同时，在良好的学习能力之外，搜狗语音识别还是最“努力”的。搜狗输入法和搜狗搜索超过5亿的用户每天提供大量的训练素材，在这个大脑中注入大量的知识，使它拥有极强的辨识能力。仅搜狗输入法一个产品，每天接受的语音输入请求量就超过1亿次。几个产品每天数亿的访问请求，使得搜狗语音搜索技术平台成为全国最大的语音识别服务平台。以此为基础，搜狗语音搜索的识别技术经过“刻苦”学习，拥有了更强的技术实力。据某评测报告显示，搜狗语音搜索的识别准确率高达97%，高于行业平均水平，且此效果还在持续提升中。

除此之外，搜狗语音搜索洞察到用户在使用语音搜索功能时的特点，进行了相应的优化对策。例如，考虑到在户外使用语音搜索功能时，往往伴随着较大的噪声、杂音的现象，搜狗语音搜索在语音识别时进行了良好的“噪声去除”，保障了准确的语音识别。另外，针对中国各地区口音不同而导致语音识别有误的问题，搜狗语音搜索也进行了相关研究，在口音等方面有较好的鲁棒性(即抗变换性)，让机器更好地听懂人的语言。

（搜狗语音搜索页面截图）

语音搜索的使用场景广泛，尤其是在移动场景下可为用户提供极大便利。例如，跟朋友在路上想要寻找一家餐厅吃饭，直接在搜狗语音搜索上说出“附近的餐厅”，即可根据地理位置给出备选项和联系方式、位置、人均价格等信息。当然，在搜狗语音识别技术如此强大的今天，已经完全不必担心出现输入错误的情况。用户普遍反映，一旦开始使用语音搜索，往往就会越来越习惯使用语音代替直接输入文字。

搜狗语音搜索技术本次上线LSTM模型，让机器更好地“懂得”用户想要输入的语言，不仅可以让用户更多使用语音搜索功能，更可以在人机交互的过程中让用户更“信赖”机器，促进整个行业的发展。相信专注于技术的发展的产品为大家带来便利的同时，也必将受到用户积极的回馈。