智能音箱们，亚马逊Echo的成功再难复制了

砍柴网 • 7年前扫码分享

有一种说法，2018年，智能音箱一准爆发。的确，在2017年，BAT轮番推出智能音箱，Rokid、出门问问等创业公司也趁势布局，国内智能音箱的出货量也从十几万上升到百万级，资金高速涌入，中国“百箱大战”将正式拉开序幕。

尽管，整体看好智能音箱未来市场，甚至有预测称2018年全球出货量将达到5630万台；但也有相对保守派认为，2018年智能音箱行业并不会爆发，主要依据智能音箱的语音交互能力较弱、内容服务生态不足、跨场景跨任务对话能力较差等因素。

思必驰的CMO龙梦竹，就持后一种观点。思必驰是国内为数不多拥有自主知识产权中英文综合语音技术的公司，其客户包括阿里、腾讯、小米、海尔、联想等，对于语音识别技术的现状，思必驰是具备发言权的。

眼下，智能音箱市场有点冰火两重天的意味。在不久前刚过去的2018CES（消费电子展）上，智能音箱颇受瞩目，被视为家庭场景的最佳智能入口，可国内，虽然BAT、小米等巨头纷纷入局，但出货量并不可观，这让智能音箱在国内的处境有了几丝尴尬。

到底智能音箱是否是伪需求，语音交互是否符合中国的国情？

的确，基于家庭场景的智能生活正在燃爆下一个消费级市场，至于这个场景是不是由智能音箱来带动，却是个未知数。

由此，虎嗅“大咖私房话”邀请到思必驰CMO龙梦竹与虎嗅会员进行了一场2小时的圆桌对谈，分享了她对当前智能音箱发展、机遇的理解，剖析了未来智能音箱发展趋势以及在声纹识别上的技术突破与当下瓶颈。我们将现场录音整理出来，复现了这场对话，干货满满。

想了解更详细的案例分享、全部图文，以及深度问答，欢迎加入虎嗅会员解锁分享内容全文。

智能音箱们，亚马逊Echo的成功再难复制了

Echo成为爆款的背后，反映的是国内音箱市场崛起面临的问题

首先一点，无论是百度Raven H，还是亚马逊Echo，在一定程度上都是为了展现背后的对话定制平台。在这样的战略目标下，他们做这样的硬件根本没有考虑盈利。

至于说Echo，Echo是集亚马逊生态与资源优势为一体的集大成者，其成功并非偶然，成功的因素也未必能为国内音箱市场崛起带来普适性的借鉴，但其快速的发展必然会推动语音技术应用落地。

第一，音质是选购音箱的首要条件，包括很多媒体都会做相关的评测，首先就是从音质开始，低音、高音、杜比音效等等。

第二，性价比是用户购买的关键因素，Echo在正式上市前，硬件已经迭代了很多版本，成本投入很大，是没太多收益的，只能是量产之后薄利多销，而对终端消费者来讲，需要的只是高性价比。比如去年有一款“折衣服机器人”，不管多乱的衣服，在十几秒种时间都能迅速叠放整齐，但售价高达十万块，几乎无人购买，所以，在价格与技术投入之间去掌握好平衡点才是关键所在。

第三，销售渠道；Echo依靠的渠道是整个亚马逊的生态服务，亚马逊把AWS云服务、Kindle跟Echo进行整合，铺设了很广的销售渠道。

第四，内容服务；亚马逊将音频服务，包括Kindle、有声读物，全部融入到Echo内容服务上，内容资源得到充分积累。

第五，语音交互；Echo在技术上最显著的代表性意义，则是把语音的远场交互迅速落地，率先将远场麦克风阵列集成在产品里，无论声源定位、远场唤醒、语音交互，都带给用户极其新鲜的产品体验。

但Echo在中国的销量还不理想，当然大部分原因是Echo目前没有支持中文，以及在整个生态和内容服务上没有完全打通，这也给中国的音箱发展创造了非常好的条件。

眼前中国智能音箱的瓶颈在于：音箱们的智能交互体验，跟语音交互技术、后端服务和生态合作都是相关的，而这几点也恰恰是国内音箱的劣势。

以语音技术为例，当技术落地应用，语音其实只是交互的手段，并不是产品功能，效果的优劣主要是由是否最终能满足用户需求来决定的，简单说，好不好用是由语音技术，内容打通能力等综合决定的。

比如有些人买了某音箱，觉得还是不好用，就会问是不是语音技术有问题？语音技术什么时候能够成熟？比如，当用户对着音箱说“我要听赵雷的《成都》”而产品反馈“对不起找不到您要的歌曲”，消费者下意识会认为是语音识别不好，搜不到歌曲，但这背后很有可能是音乐内容提供商没有这首歌的版权；或者产品本身某个硬件模块没有选得特别好，比如芯片选择不好可能会延长语音识别的时间。

对用户来讲，语音是用户跟产品发生关系最直接的感受，于是所有的锅，最后都是由语音技术来背。

国内智能音箱整体上还未到爆发节点

很多人都在问2018年音箱能火起来吗？

从语音交互、内容服务，包括用户的接受能力，其实还达不到音箱真正爆发的节点，音箱带动的更多的是大众对智能家居的认知，让大家看到物联网的发展及智能家居的未来，而真正能火起来的可能不一定是音箱，有可能是智能门锁，智能路由等。

2018年应该会有中国本土的创业企业研发的智能门锁大规模铺向C端市场；再比如电视，电视在2018年、2019年会是个分水岭，之后所有的电视应该全部都有语音功能。

但音箱目前还不具备成为刚需的条件，那为什么音箱会成为目前商家探路市场的首选？这是因为音箱本身是一个天然的、最好的音频载体，第二，音箱比较轻量化，进入门槛相对较亲民。

智能音箱们，亚马逊Echo的成功再难复制了

也许明年，市场上会出现更多类似于智能音箱的变体，比如音箱大部分是圆柱体，是为了收音和识音，还有音频播放。但如果把音箱中部挖空，把它拔高，做成花瓶，那是不是就可以不用叫智能音箱了？

所以未来真正会爆发的是“智能助理终端”，真正能够解决用户交互需求，家居的控制等等，而不在乎是什么形态。

另外，中国作为一个农业大国，对爆款产品的定义一定不是说产品体验多好、价格多低，而在于卖的多好。要卖得好，渠道是很重要的因素。只有打入三四线市场，比如现在的手机，苹果、华为炒的较热，但OPPO、vivo，的市场占有率却是非常大的，它们走的就是打入中国广大的三四线市场，因为这一块才是最有消费潜力的，而音箱如果在一两年内想打入三四线市场，可能没有那么容易。

我们再说回今天的主题，智能音箱。

智能音箱只是外在的终端形态，我们要评价智能音箱的好坏，就需要关注其背后的综合能力，首当其冲的是智能语音技术。

从互联网时代到移动互联网，再到物联网时代，设备数量呈现指数级的增长，信息获取也从文本信息处理发展到对话搜索。

随着对语音技术、新场景的挖掘，物联网市场迅速发展，智能硬件设备数量将达到100亿量级，文本信息交互变得越来越弱，而语音和对话交互成为发展的需要，信息获取也从终端为中心转移到以用户和场景为中心，这是整个时代的变革。

比如，在2014年的时候，以智能手环为代表的可穿戴市场开始兴起，短时间内国内出现了几千家做智能手环的企业，但又迅速的销声匿迹。再到2016年基本上很少看到手环或者可穿戴产品的存在，而今年随着整个AI技术，尤其是语音技术，还有新场景的挖掘，穿戴设备市场又将会慢慢地恢复起来。

声纹识别虽是趋势，但大规模商用还需时日

最近关于声纹识别的讨论很多，那我也来讲一下这个事情。（虎嗅注：声纹识别又称说话人识别，是生物识别技术的一种。该技术通过语音波形中反映说话人生理和行为特征的语音参数，进而分辨出说话人身份）。

我认为声纹识别大规模商用的时机还远远不到。我说一下我的理由——

目前，声纹识别目前分为两种形式，一种叫说话人辨认-SI（Speaker Identification）

，属于一对多的关系，就是在一群说话人中，通过去识别其中一个人音频和信号去确认这个人是谁，应用的场景包括刑侦破案、罪犯跟踪等；另一种叫说话人确认-SV（Speaker Verification），属于一对一的关系，通过采集的数据来确认说话人，应用场景包括证券交易、支付购买、声纹锁等，民用场景应用性更强。

但目前在做声纹识别方案的时候，通常是将声纹作为一种辅助认证，把声纹和人脸进行结合，双重验证，或者把声纹跟传统的密码支付来进行绑定。但对于声纹识别大规模的商业应用还需要时日，做好产品的交互体验也是关键所在。

在声纹识别里边最大的难点，首先语言是一种时变的一维信号，语音声音信号本身的问题，在于说话人语速、情绪、感官，甚至包括采集音频的设备、变声器的应用都会对声音有一定影响，让声音的可信度有存疑；从算法上来说，包括建模、运算的能力，尤其是做声纹数据库的时候，去做什么样的用户声纹验证，有关年龄、职业分布、发音特质都需要做建模，并且建立数据库对样本量的获取都是难点。

尤其是智能家居大环境下，将会面临以下几个方向的挑战：

首先是噪音的干扰，也就是鲁棒识别（鲁棒即经历了各种信号处理或者各种攻击后，依然具有一定的保真度），未来将会从算法降噪和硬件降噪来综合提升体验；

第二是家居环境下的远场交互，目前主要是基于理想的家居环境中3~5米的距离来做核心优化，之后会针对于酒店，甚至银行大厅去做点对点的降噪尝试；

第三是回声消除、在设备播放声音时的唤醒、打断和交互。最后是提升交互体验的其他必须技术点，包括声源定位、声纹识别等。

来源：虎嗅会员小秘书