解读云知声2015技术升级:语音技术如何为人工智能带来更好体验?

电科技  •  扫码分享
我是创始人李岩:很抱歉!给自己产品做个广告,点击进来看看。  
随着科技的进步,人工智能在今天,早已不是一个现实中难以触及的概念,伴随智能家居、车联网、甚至是VR产品的涌现,人工智能的未来也有了更多可探索的方向。
 
从人机交互形式出发,语音识别无疑是人工智能产品与用户之间,最便捷有效的交流形式。
 
02.png
 
12月16日,年关将至,专注人工智能领域,拥有全球顶尖语音识别技术的业界新锐云知声,在京举办了年度品牌发布会,以“看见声音的价值”为主题解释了语音技术对人工智能非凡的含义,而声音价值的背后,毫无疑问,是不断升级的技术。
 
底层启用LSTM深度学习技术,将性能推向新高度
 
作为国内首家基于深度神经网络DNN(Deep Neural Network)的语音服务提供方,2015年,云知声进一步升级了基于LSTM(Long-Short Term Memory)的深度学习技术,将语音识别的性能再度推向一个新高度。
 
几年前,基于DNN的语音识别系统取得了远优于基于传统模型的识别性能,和DNN相比,如今的LSTM具有记忆能力,能够对时间轨迹进行建模,因此LSTM对大数据的描述和解析能力会更强,性能自然也就更强。
 
03.png
 
比如在ASR语音识别方面,LSTM带来了15%以上的性能提升。目前,LSTM已经作为通用技术,应用在云知声的语音识别,语音合成,语义理解中。
 
另外,为了加快对数据的利用效率和引擎迭代周期,云知声实现了分布式训练的架构体系,以前需要一两个月才能完成的一次技术迭代,现在一两周就可以做到,这都是推动产品方案落地的动力支援。
 
更优化的语音识别,更深层的语义理解
 
在2015年以前,云知声便拥有了完全自主知识产权的语音识别和转写技术,包括基于服务器端的在线识别以及基于终端设备的离线识别;超过30个领域的自然语义理解(NLU)技术;以及具有极高自然度与可懂度的中英文语音合成技术。
 
不过随着IoT物联网的快速发展,用户对于人工智能的体验更加严苛,对语音识别和语义理解两大核心技术提出了更高的要求,也成为2015年,云知声重点努力的方向。
 
在语音识别方面,主要面向家居、车载的识别技术优化,云知声实现了远讲识别和降噪、低功耗唤醒和识别和车载噪声和回声消除三项技术突破,即提供高性价比双麦克风和四麦克风方案,并支持远讲、打断和噪声抑制,实现5m距离识别首个商用产品,达成芯片级低功耗冷唤醒和指令识别,并提高唤醒、识别率和实现音乐打断。
 
04.png
 
在语义理解方面,则实现了包括影视、音乐、POI、有声读物等领域在内的技术优化,将语义解析的领域扩充升级至超过60+个, 支持大部分的家具设备操控,支持超过10W+条指令的执行;领域的平均语义理解准确率已经达到95%左右,在对语义解析准确率更为严格的家具操作方面更是达到了99%。
 
此外,云知声还首次上线了支持跨领域的多轮对话系统,支持跨领域的指代和省略消解,整合领域知识库,包括百科知识,社区问答数据,结构化的知识图谱等,利用基于深度学习的向量表征方法,通过学习问题与答案的匹配度模型来选择最佳答案。
 
回过头来,2012年成立的云知声之所以能够迅速占领语音市场并形成今天的规模,其中至关重要的因素无外乎前沿的技术支持,以及云知声CEO黄伟所说的,“将技术第一时间转化为产品方案”的实力。
 
01.png
 
面对未来,黄伟在发布会上提出了打造全语音IoT平台芯片解决方案的产品战略,利用智能语音芯片,解决智能家居领域的硬件操控需求和智能车载领域的软件交互需求。
 
正如云知声所期望的那样,语音大数据必将成为人工智能道路上一个不可替代的驱动力,而可以预见的是,声音背后的更大价值,也正在被更快的发掘出来。

随意打赏

提交建议
微信扫一扫,分享给好友吧。