小度智能音箱 2 红外版从“芯”颠覆:百度鸿鹄芯片加持,唤醒率识别率大幅提升
4月20日,百度旗下人工智能品牌小度再次迎来“新生猛将”——小度智能音箱2红外版,以119元的预售价在小度商城开启预售。作为2020年无屏系列的绝对主力产品,小度智能音箱2红外版搭载了百度首款针对远场语音交互研发的鸿鹄芯片,语音唤醒率更高,尤其高噪声下首次唤醒率提升10%以上,语音语义识别也更准确,识别错误率平均降低30%,同时待机功耗更低,相比传统芯片下降90%。
随着智能音箱应用范围和场景的扩大,对远场语音交互的唤醒及识别率要求越来越高。传统语音唤醒采用的是多路数字信号处理技术,一般会使用麦克风阵列作为拾音器,但基于波束区域拾音的方法严重依赖于声源定位的准确性,由于首次唤醒并不知道声源的位置,所以首次唤醒率往往很低。因此,必须先找做定位,找到说话人的方向之后增强语音信号,在下一句语音输入的时候,语音唤醒率和识别率才会提高。
小度智能音箱2红外版内置的百度鸿鹄芯片为远场语音交互算法量身定制了芯片架构,完全契合AI算法需求的核内内存结构设计、分级的内存加载策略、依据AI算法调教的cache设计和灵活的双核通信机制等,得以让深度学习在芯片中高速计算,实现了深度学习计算过程和数据加载的高度并行。
此外,百度鸿鹄芯片还融合了语音技术算法的“王炸”,其于2019年11月业界首次提出基于复数CNN的语音增强和声学建模一体化建模技术,打破了数字信号处理和语音识别两个学科的学科间壁垒,一套深度学习模型直接建立多路麦克信号和输出文字之间的映射关系,这种端到端建模技术直接建模语音和文字的映射,避免了数字信号处理的畸变对识别率带来的干扰,在小度智能音箱获得超过30%以上的识别错误率下降。
换句话说,该模型直接将语音增强和声学建模两个过程融合为一,避免了在各自过程中优化不统一所带来的错误率下降,全局的优化目标只有一个,即字准确率。由于这种建模方式是端到端一体化,无需定位声源,就避免了传统上由于定位出错而导致的识别准确率急剧下降。特别是在没有定位信息首次唤醒的情况下,小度智能音箱 2 红外版在高噪音下首次唤醒率最大幅度可以提升10%以上,且能保证高精准唤醒的同时,误报率非常低,这一点是业内传统技术无法做到的。
根据百度实验室测试结果,在安静环境2.5米距离内,小度智能音箱 2 红外版360°识别字准率达99%,这一数据比第一代小度智能音箱高2%,比市场上其他品牌智能音箱产品高10%,而句准率95%更是高出竞品24%;在家庭电视噪声环境2.5米距离下,这一对比更加明显:小度智能音箱 2 红外版360°识别字准率95%、句准率88%,分别较竞品提升了40%、75%。
百度鸿鹄芯片应用之前,业界架构中一般是两级唤醒,第一级唤醒计算量很小,主要用来收听,是全天候运转的;第二级唤醒计算量很大,是在发生可能疑似唤醒的时候来做决策。业内通常用的低功耗芯片的远场语音交互解决方案,都是低功耗芯片部分只承载第一级唤醒,这样全天候的收听过程不会耗电特别多;如果发生疑似唤醒,跑在一个更强计算力的主芯片上的第二级唤醒再进行第二次检测,最终确定唤醒是不是发生。这样的机制是低功耗唤醒常用的解决方案。而这样的两级机制,使得主芯片的算力和资源都要向第二级唤醒倾斜。
百度鸿鹄芯片将所有语音交互任务都放到了语音交互芯片上,一颗芯片可同时解决全部的语音交互功能,主芯片无需承载复杂的语音交互的计算功能,因此可以显著节省语音交互部分对整体系统资源的占用。小度智能音箱 2 红外版内置百度鸿鹄芯片后待机功耗减少90%,更加省电节能和环保。另外,百度鸿鹄芯片低至100毫瓦的功率完全满足3C产品0.5瓦的待机标准,这也意味着任何一个国家认证的节能、环保的绿色 家电 都可以搭载这颗芯片,为业界首个达到该标准的远场语音交互芯片产品。
在百度鸿鹄芯片加持下,小度智能音箱2红外版实现了高性能语音交互体验,是对传统智能音箱的一次性能颠覆。从推出国内第一款有屏智能音箱,到业内率先发布智能屏这一新物种,再到如今将全球首款适合智能音箱使用的、集成了全链路远场语音交互的低功耗AI芯片应用于无屏智能音箱中,小度始终走在时代的浪潮之巅,为智能音箱行业发展注入强大“智“力,催生出智能音箱行业的勃勃生机。