抢滩智能音箱（下）：对话OS围猎服务生态链会重构吗？

IT思维 • 7年前扫码分享

我是创始人李岩：很抱歉！给自己产品做个广告，点击进来看看。

智能音箱像潮水一般席卷科技行业，随着各家巨头的进入，百箱大战一触即发。8月15日，网易智能独家发布特稿《抢滩智能音箱（上）：新大陆还是海市蜃楼？》（点击阅读原文查看），采访了智能音箱生态链中的各环节厂商和资深行业人士。

在上篇中，主要阐述了中美智能音箱的差距以及造成差距的具体原因，各大厂商争抢智能音箱背后的语音交互大时代以及落地场景，以及对于智能家居控制论的争辩。

在下篇中，我们将探讨如果做出一款智能音箱，目前还有哪些技术问题，以及智能音箱背后的内容服务与音乐版权之争。

文 / 小羿

四、技术为先：

关于远场识别、唤醒时长以及声纹识别

想做一款智能音箱，首先要解决端的问题。
而要想在智能音箱上达到自然的语音交互能力，这其中最关键的技术首先是远场语音识别。

远场语音识别的实现，涉及麦克风阵列，以及降噪算法，声音识别的准确性及延迟等一系列问题。”

麦克风阵列本身很成熟，不管是2、4、6、7麦，目前国内厂商都有生产，而关键的是在软盒方案（降噪、声源定位等），如果你想做一款智能音箱，很多语音识别技术公司都会给你指定采购方。“网易人工智能总监刘锐说到。

但如何选择麦克风的组合数量？很多人给出了不同的看法。一般认为，麦克风（mic）越多，声音采集的效果越好，但算法也就越复杂，对CPU的主频要求也就越高。

云知声Pandora项目负责人张鹏认为，6mic和4mic的效果差距不是特别明显，但成本更高，加上2mic和4mic之间效果还是有一定的差距，综合考虑选择4mic会是一个比较好的方案。

“麦克风不是越多越好，应该是合适最好。”智能音箱继承方案商Sugr CEO宋少鹏说，“Google Home只用了两个麦克风，但它的算法做的非常好，效果也不错。

所以，选择多少麦克风数量，需要考虑使用场景、距离、成本，甚至是系统算法。”

目前来看，6+1的麦克风方案是亚马逊Echo验证的方案，目前使用类似方案的厂商有很多。

据灵隆科技总经理魏强称，叮咚音箱目前使用的是7+1的麦克风组合方案，这通常是软硬件一体的解决方案，除了硬件外，还必须搭配降噪、背景音消除等诸多算法，甚至涉及外部结构、电路设计。

虽然目前行业中已经有很多成熟的麦克风阵列软硬件一体化解决方案，但是真正用到实际场景中，还是会有很多问题，比较典型的是方言识别问题，以及中英文夹杂识别问题。

汉语中有很多方言，这就导致不同地区的用户在使用智能音箱做语音交互时体验上差距很大。魏强认为，方言问题本质上是数据训练的问题，如果我们有足够多的方言语料，就能解决这个难题。

另外一个很典型的问题就是用中文语音交互搜索英文歌曲，甚至中英文混杂的曲目，最后的结果往往是驴唇不对马嘴。这需要语音识别的技术公司在中、英文的切换上找到突破口。

远场识别之外，另一个比较受关注的技术问题是唤醒词定制以及唤醒时长问题。

从目前的技术水平来说，唤醒词定制没有太大的问题，难点在于定制唤醒词的唤醒准确率没有常规唤醒词高。近期，百度全资收购了专门做唤醒词定制的技术公司KITT.AI，以加强自己在这部分技术上的实力。

关于唤醒时长，这是目前业内还没有达成技术统一的难点所在。

也就是说，智能音箱被唤醒之后，是一直在拾音状态，还是转到休眠状态，这是一个问题。如果一直在唤醒状态，就有可能出现误识别的问题，比如电视上的声音说“报警”，智能音箱就立即拨打报警电话。

这是发生在Google Home上的真实案例。

“目前行业上的普遍做法是预留6秒或者10秒的唤醒时长，或者干脆让用户自己设置唤醒词的预留时间。”刘锐向网易智能解释到。

除了以上的技术之外，目前在智能音箱上还有一个方兴未艾的技术，那就是声纹识别。在网易智能对各行业人士的采访中，大家都比较认同这项技术未来的应用前景。

在张鹏看来，声纹识别为语音交互时代提供了一个身份ID，这就使得为个体成员提供个性化的服务奠定了基础。“声纹识别技术会成为智能音箱甚至是未来语音交互的标配。”刘锐这样给声纹识别技术定位。

“不过，目前声纹识别技术才刚刚兴起，现在可以识别的用户数量并没有一个标准。从技术上看，识别的用户越多，误识别率越高。”

刘锐称，目前声纹识别的算法还处于数据积累初期，还需要进一步发展成熟。魏强认为，目前的声纹技术只能用在比较清晰的语音环境下，而且不能用于支付等有风险的场景中。

“今年的语音交互技术就像2008年的手机触控技术，当时的触摸操作不灵敏，打游戏没不跟手，设备还容易发烫。但是未来语音技术肯定会越来越成熟，以上难题将迎刃而解。”宋少鹏说到。