百度超谷歌跃升全球第二，硬核语音技术成抢夺智能音箱“C位”的王牌

雷锋网 • 5年前扫码分享

雷锋网 (公众号：雷锋网) AI 科技评论按： 日前，据科技市场研究企业 Canalys 发布的第二季度全球智能音箱市场报告，百度继今年上一季度超越阿里后，再度超越该行业的“双寡头”之一谷歌，成为全球第二大智能音箱供应商。

图源：Canalys 报告

在智能音箱这一赛道，相比其他头部厂商，百度入局稍晚，如今却能力压群雄取得一系列亮眼成绩 。百度系智能音箱作为 C 端可体验产品，普通用户对其音质、听感等各方面都有较为直观的感受，而所有优质体验的背后，百度在智能语音技术上的积累可谓功不可没。从智能音箱的远场语音识别、对话交互技术甚至产品硬件技术，百度始终坚持“亲力亲为”，为智能音箱积淀了一整套完善一体的技术储备和解决方案，从而为小度智能音箱的体验提供了强大的后盾支持。

百度超谷歌跃升全球第二，硬核语音技术成抢夺智能音箱“C位”的王牌

“百度发布SMLTA模型，带来语音技术世界级突破”、“小度智能音箱首度落地完全意义上的全双工连续交互技术”，无论是语音唤醒、语音交互，还是远场信号处理、声学技术乃至产品硬件技术，百度都给智能语音技术领域带来过不少惊艳的突破创新，得到 C 端用户的认可，经过市场的检验，这也是对百度在智能语音技术一系列突破性进展的最好回响。

除了在智能语音领域有着整体全面的技术布局，在每一项语音技术上，百度更是在不断深耕 。下面，AI 科技评论将聚焦智能音箱这一远场语音识别产品的关键性技术，主要从语音唤醒算法、语音交互模式、远场信号处理、语音声学技术以及产品硬件技术五个维度，来对百度蓄力爆发的小度智能音箱背后的黑科技进行揭秘。

语音唤醒算法：误唤醒控制从手工调节到海量数据训练驱动

人要跟智能音箱进行对话，第一道关卡便是语音唤醒，因而语音唤醒对于后续的整个用户体验而言，至关重要。然而在智能音箱这一远场语音识别载体中，而技术本身，外部环境对于语音唤醒质量的高低有着非常直接的影响。例如当外部噪音很大时，误唤醒等问题就非常突出了。

而百度，除了面临所有智能音箱产品都面临的此类挑战外，还存在其内部独有的唤醒技术难点 。包括，第一，“小度小度”作为百度智能音箱的唤醒词，虽朗朗上口，但它相对于市面上其他音箱常用的“你好xx”、“xx同学”技术上更不容易控制误报率；第二，百度的产品矩阵丰富，更使得唤醒技术所面临的外部环境更加复杂多变，因而对唤醒的精度和误报的控制提出了更高的挑战。

针对这些挑战和技术难点，百度首先从算法层面实现了语音唤醒技术的突破，即将误唤醒的控制由对着测试集手工调节变成了海量数据训练驱动的过程，并具体从两个方面提升了模型的建模能力：

第一，利用大量容易获得的无标注负例数据，以及有限的有标注正例数据，索负样本的描述和挖掘方法、正样本的加噪扩充以及构造海量的训练样例；
第二，探索新的模型学习策略，采用聚焦学习的方法，让有限体积的模型能够从海量的数据中高效地学习有用的知识，同时简化系统的流程。

不仅如此，百度还直接从唤醒技术的维度对小度智能音箱的语音唤醒功能进行优化和改进，研发出了一套纯端到端的声学模型/决策模型的二级唤醒技术，能够兼顾高召回率和极低的误报率。其中，声学模型还采用粗粒度的唤醒词音节作为建模单元，引入海量负例数据优化，利用唤醒词音节尖峰搜索代替了维特比解码，大幅度提高了声学模型的检出效果；而决策模型则采用了深层卷积网络，可对唤醒词进行整词置信估计，同时实现了高唤醒召回、低误报率和较低的资源占用。

语音交互模式：首度落地完全意义上的全双工连续交互技术

“每轮对话之前，都要唤醒一次”，这是当下市面上多数智能音箱的常态，也是人们在使用智能音箱期间的最大槽点之一。人们对于智能音箱“像人与人一样交流”的憧憬要想实现，首要条件之一就是要能够做到：持续对话。

在智能音箱的连续交互能力上，百度为小度智能音箱研发的全双工免唤醒能力的表现，非常出色。这项能力组合应用了语音语义联合的尾点检测技术、全双工语音识别技术、置信度技术和语音语义一体化技术，在实现“一次对话，多轮交互”的同时，还能快速响应，并良好地区分用户交互意图。

百度超谷歌跃升全球第二，硬核语音技术成抢夺智能音箱“C位”的王牌

实际在连续交互能力上，国外早已有 Google home 智能音箱实现了 Continued Conversation 的功能、Amazon echo 智能音箱实现了 Follow Up的功能，国内亦有小雅音箱可实现多次交互功能， 但这些，都不是完全意义上的全双工连续交互。

百度，则是首家在智能音箱行业应用全双工连续交互技术的企业。

远场信号处理：回声消除等多重突破性技术齐头并进

对于远场语音识别而言，远场信号处理技术贯穿了整个语音交互的过程，技术的强弱将持续影响到整个语音交互体验。而这实际上是最容易受到外界环境干扰的环节， 因而对于如何更好地对这项技术进行完善，需要实际落地到非常具体的场景和问题中去找答案。

多通道回声消除技术：播放音乐时也能接收用户命令

当我们在大声唱歌的同时，如果远处有个人在冲你大声说话，你能不能听清他说什么？智能音箱同样也会遇到这样的问题，因为人离设备的麦克风的距离往往很远而设备自身扬声器离麦克风的距离很近，所以当用户在智能音箱在播放音乐时下达语音命令，往往得不到准确回复，甚至得不到回复。

在这一场景下，回声消除技术就非常重要了。对此 百度研发出了能够根据硬件与环境自适应的多通道回声消除技术 ，以及音量自适应的两级后处理和双模式下（回声和非回声模式）的噪音抑制技术，确保在任意音量下，回声都能被很好地消除以及说话人的声音能被很好地保留，在确保语音唤醒的精度、降低回声残余引起的误唤醒的情况下，还能在全双工连续交互技术的加持下实现高精准的语音交互成功率。

噪音抑制与增益控制技术：可自适应感知声场环境抑制噪声

我们一般都将音箱放置在家里的哪个位置？回答一般是电视柜、床头柜、书桌等靠近墙边、墙角的地方，这就带来了声音遮挡、反射问题等一众问题，会大大加剧智能音箱判断说话人在哪以及谁才是说话人的难度。

智能音箱只有拥有硬核的降噪能力，才能应对这一场景中的问题。 基于已有端到端远场语音交互的整体解决方案所具备的远场信号处理与声学模型的优势，百度主要从两个方面来提高智能音箱在此场景下的降噪效果： 一方面，研发了语音解混响、声源定位、场景分析、干扰抑制及声场自适应的噪音抑制与增益控制技术；另一方面，利用唤醒与识别模型反馈的语音特征信息，为声源定位提供准确的说话人后验信息，与此同时由远场信号处理为唤醒与识别模型提供多维信号决策信息。

除了回声消除、降噪等常规的远场信号处理技术优化，百度作为一家占据了巨大市场份额，并拥有多个产品品类的智能音箱厂商， 对于用户体验的关注可谓非常周到，因而即便在一些非常特殊的场景和细节问题上，也不遗余力地从技术上进行优化 ：

例如考虑到用户在家中同时拥有多台小度智能音箱产品，会出现在唤醒小度时出现多台智能音箱设备同时响应的问题，百度研发了多设备协同交互技术，可准确判断用户距离不同设备的远近，从而智能选择距离用户最新的设备进行响应；而针对智能音箱的麦克风拾音孔出现堵塞、进水等问题，则从0到1研发了麦克风异常的实时监测技术，并在算法中加入抗风险的冗余模块，即使设备麦克风在出问题的情况下，依然可以实现高精度语音交互，同时将麦克风异常上报服务端，为产品售后及维修提供可靠信息。

语音声学设计：首创 Deep Peak 2、SMLTA 两大突破性模型

深度尖峰技术Deep Peak 2 模型

去年初，百度发布的 “深度尖峰技术Deep Peak 2 模型”在行业内引起的广泛关注，而百度智能音箱在该模型的加持下，无论是在解码速度还是语音识别的效率和准确性上，都已实现了行业领先。

Deep Peak 2 模型，其全称为基于 LSTM 和 CTC 的上下文无关音素组合建模，该模型通过声学模型学习和语言信息学习相分离的训练方法，使用音素组合来保留最重要的音素连接特性，从而避免了上下文无关建模时的过拟合问题。

进一步讲，该模型基于音节建模的核心优势在于 ，音节是人发音的逻辑单元，轨迹明确，是存在完整轨迹的最小单元，而不同音素之间的分界线非常模糊，容易让网络“困惑”。同时，音节的时长比状态和音素都要长，相比更不易受背景噪声、信道、场景、说话人等音素的影响，因此 Deep Peak2模型对数据多样性的兼容性更好。同时，比起粒度更大的建模单元，例如词，建模单元的数目适中，其建模单元也不会过大，能显著带来更快的解码速度。

后续，百度更针对现实场景中对于中英文混杂语音识别的需求，研发了基于Deep Peak2的中英文统一建模的音节模型，采用上下文无关的音节对中英文统一建模的方法，语音系统可通过中英文系统识别语音指令，并直接输出中英文识别结果和中文识别结果，融合后返回给用户。

Deep Peak 2 模型的再度进化：世界首个上线的端到端建模的SMLTA 模型

Deep Peak 2 模型之后，百度再度通过引入局部注意力和多级注意力，首创基于注意力（Attention）模型的端到端 SMLTA模型（流式多级的截断注意力模型），成功解决了高频查询的高精度要求问题。

需要注意的是，虽然学术界对于将多注意力模型引入智能语音任务中的尝试不少，然而此前一直都尚未成功应用到工业界的商用智能语音服务中，因而百度提出的SMLTA模型，是工业界大规模使用注意力模型进行语音识别的首例。

从技术层面来看，SMLTA模型所实现的创新，可以用四个点来概括：截断、流式、多级、基于CTC & 注意力。 下面我们逐个来看。

SMLTA模型可以看成是让 DeepPeak2 通过结合注意力机制来获取更大范围和更有层次的上下文信息，其中的 “流式” 表示可以直接对语音的小片段（而不是必须整句），进行一个片段一个片段地增量解码； “多级” 表示堆叠多层注意力模型；而最后的 “截断” 则表示利用 CTC 模型的尖峰信息，把语音切割成一个一个小片段，使得注意力模型建模和解码都可以在这些小片段上展开，进而能够克服传统注意力模型在大范围内进行注意力建模带来精度不佳的问题。

进一步，考虑到CTC模型得到的尖峰的描述信息存在一定的插入和删除错误，容易造成截断得到的子块边界的不准确性，进而影响系统的识别性能。为此，百度在该模型中又创新性地提出两级Attention结构对截断的子块特征进行逐级筛选，最后再经过解码器的LSTM模型输出最后的概率分布。

百度超谷歌跃升全球第二，硬核语音技术成抢夺智能音箱“C位”的王牌

图：基于CTC尖峰截断的流式多层注意力模型工作原理图

据悉，与目前业内最好的基于CTC模型的语音识别系统相比，SMLTA基于截断的端到端语音识别建模方法，让语音识别错误率的下降幅度达15%以上。

产品硬件技术：相同的价位，更佳的语音和音质体验

而除了语音识别技术，在当下的智能音箱市场，一款音箱要成为“好卖”的音箱，其中一个非常重要的因素就是性价比。如何将智能音箱的成本降到尽可能低，并拥有比同价位的竞品更加出色的音质，同时还能够有效控制住音频失真确保唤醒识别率呢？

百度超谷歌跃升全球第二，硬核语音技术成抢夺智能音箱“C位”的王牌

以百度音质、听感最好的大金刚系列智能音箱为例，百度在硬件技术层面率先做了以下尝试：

首先， 在喇叭选型+音腔设计上 ，百度智能音箱选用了两只规格更大的2英寸全频喇叭，加两片91mm*51mm被动低音辐射器，经过将零件巧妙地布局在有限的音箱空间中，音腔容积达到了400CC，有力地保证了音效的全面输出。

其次， 在结构设计上 ，百度智能音箱采用了创新的设计思路，其中以整体外观为例，零指示灯环与黑色外壳融为一体，通过模具注塑一次成型，实现了外观的零缝隙、零段差，并减少了整机的零件数量，有效降低了整机的成本。

同时， 在电路设计上 ，百度智能音箱选用单电路板硬件设计方案、硬件PCB设计，并申请了相关专利，是国内主流智能音箱产品中首创性的单电路板设计方案。而该单板方案的优势是集成度高，可降低生产组装成本，并减少单板占整机内部空间，从而留出空间加大音腔，提升音质的基础。

AI科技评论总结

整体而言，智能语音作为AI 领域相对比较成熟的细分方向，近年来在产品落地方面也都走在其他技术的前面。但这些技术具体落地到某个具体场景或特殊场景中时，面临的挑战依旧巨大。如何不断优化智能语音技术，并实现技术的大规模产品落地，依旧是该领域需要大力探索的主题。

而这正是百度等智能语音厂商正在做、并且擅长做的事情。 以百度提出的SMLTA 模型为例，这是全世界范围内首个基于注意力技术的在线语音识别服务的大规模上线，在发布之际不仅引起了工业界的广泛关注，更成为了学术界的大事件。正如我们在上文中也提到的，在此前已经有很多专家和学者尝试在语音识别任务中引入注意力模型，然而这种尝试一直无法走出实验室。因而百度所取得的这项突破性进展，无论对百度自身的技术布局而言，还是对整个智能语音领域而言，都意义重大。

未来，智能音箱要想取得更加明显的体验提升，背后技术的突破创新是绕不开的一个话题。 百度语音技术团队不断在攻坚克难，算法迭代创新，并善于将之应用在落地产品中。就在前不久，百度语音首席架构师贾磊的回归，又将为百度语音技术带来怎样的变化和突破？拭目以待。

。