中国Echo能以小米模式复制成功么？难

加速会 • 8年前扫码分享

我是创始人李岩：很抱歉！给自己产品做个广告，点击进来看看。

因为CES上 Echo 的火热，2017年国内很可能有100家公司同时开始做智能音箱。这就很容易让我们联想到2010年智能手机刚刚崛起的时候。那时小米把握了手机换代的机会迅速崛起，那现在会有人把握音箱升级的机遇重复小米的成功么？这又会是怎样一条成功之路？

复盘小米的成功之路

综合各方信息，小米的成长路径大致如下：

2010年4月6日，北京小米科技有限责任公司正式成立

2010年8月16日，MIUI首个内测版推出。

2011年8月29日，小米手机1千台工程纪念版开始发售。

2011年9月5日，小米正式开放网络预订，半天内预订超30万台，取得了重大的成功。

产品整个打磨周期大概在一年左右，这其中正反馈有两个：一是MIUI上获得的各种积极反馈，二是半天内预订超过30万台了。

这可以配合着小米的融资来一起看：

2011.7.1 A轮 4100万美元

2011.12.1 B轮 9000万美元

2012.6.1 C轮 2.16亿美元

也就是说产品一完成就做的A轮，销量一确定立刻就做的B轮，简直神速，做过融资的看了一定会跌掉一地眼球。（ ※我个人负责声智科技的融资，而声智科技几乎是语音交互赛道上最靠谱的创业公司，即使如此，让我按照这种节奏和估值来融资，我是完全搞不定。）

如果把这种成长速度单纯的归结为雷军雷总的领导，那就太个人崇拜了，跳出单纯的表面现象，我们可以发现这种增长有两个核心依赖：

第一在相对成熟的技术体系上进行定制组合（高通 Android）。

第二在相对成熟的市场上进行运作获得得市场正反馈。

这是两个大前提，缺了第一个那就不可能在差不多一年的时间里打造出这么一款产品（苹果在有积累的情形下，组织了200多号精英花了差不多2年打造了iPhone1）。缺了第二个那就很难形成市场、资本上的正反馈。可以这么讲：整个工业体系的成熟是小米迅速成长的泥土，而小米的成功则是泥土上长出的鲜艳花朵。

在 Echo 上复制小米的挑战

Echo 这品类不管是前端价值（硬件与入口）还是后端价值（成为新的广告平台）都无比巨大，所以如果有任何一家在这个赛道胜出，那很可能成就下一个小米甚至BAT。但在Echo上复制小米的成功其实面临很多的新挑战。要想对此进行判断，那先要理解2010时的手机与现在Echo所面临的生态差异：

第一现在根本没有一个像2010年的手机那样的相对成熟的软硬件体系，而是大家都在摸索之中。 更为关键的是软件上，指望别人把中文语音交互做成Android那样的成熟度比较不靠谱，必须得是中国企业自己挑大梁了。这次如果真的搞成了，那还可以顺手搞定我们呼唤了许多年的国产操作系统问题。硬件上也因为是新东西所以根本还没有高通那样的比较成熟的方案给你配套。很多人估计都是第一次听说世界上还有一种东西叫麦克风阵列，里面还要做Beamforming来定向收音。

第二，正因为前面说的问题，Echo这类产品就不太可能迅速获得市场的正反馈。 作为一种纯正的必须全依赖于国人自己原创技术的新东西，最初体验最多可用，然后就需要持续打磨，但最初产品的销量是不可能像小米手机那样快速增长的。这就和我们互联网培养出来的一波流打法差异很大，一波流打法下大家总想速胜，干个一锤子买卖，行了我再增加投入，但这事它事实上要求即使没卖出去那么多的时候还得持续投入。

具体来讲真想做成Echo这类产品，复制小米那类的成功，一个公司必须在下面两点上保持足够的战略耐性：

从算法没问题走向体验没问题

我们总是可以在一个极为狭窄的领域里证明人工智能的强大，比如识图、标准环境语音识别、下棋、最强大脑。但这就和让人和计算机比计算速度一样，缺乏一种现实意义，做PR是可以的，但做产品就不灵。如果对话系统被限定于只回答100个问题，那之前的硬编码也可以做的非常精确，但那显然会因为适配范围太窄而对用户不产生价值。要想落地AI必须彻底解决一个子领域中的全部问题，这样才能贡献于产品，比如：精准的放音乐是一个子领域，精准的和IM系统结合是一个子领域，精准控制家电又是一个子领域。核心点在于把技术突破打磨成优良用户体验，这两点不先天等价，这点最容易被做科研的人员所忽视。

打穿算法、数据与原子的边界

产品对技术的要求总是高度综合的，这点在语音交互上体现的特别明显，当语音识别、自然语言理解需要产品化的时候，你并不能约束用户必须把电视关了、其它人不能说话、说话的时候必须正面产品90度、必须把音箱音量设置到足够小等等。那样产品就没法用了。也就是说真想做好产品还要打穿原子（硬件）和比特（算法）的边界，补全整个链条，把声学、语音识别、语义理解进行系统的整合。

形象来讲就是在做Echo的时候，整个技术链条上国内企业自己要做的事情要远比做手机的时候多。硬件上是这样，算法上也是这样。

从前端到后端

Echo所代表的远不止是音箱升级，一旦前端产品成功，其后端价值就会大到任何人都无法忽视的程度。这点从行动上看国外巨头已经形成共识，而在国内大家思考的还不多，所以下面做些展开：

我们先做个基本的假设，那就是Alexa获得了巨大成功（ Echo、智能音箱、Alexa有关联，但其实是不同的东西，这点在之前文章中有说，这里不再重复），渗透到各种设备之中，包围了人们的生活，人们有50%的时间在通过语音和设备打交道，并且日活逼近Android。

那这时候一定会衍生这样的需求，用户会说：Alexa，帮我通知下马化腾，明天我不见他了。这时候就需要有一种通讯的IM来实现这种需求。这时候亚马逊就有两个选择：第一它接入一种已有IM，比如Whatsapp，或者Skype。第二种是自己做一个嵌在Alexa里面。亚马逊至少有一半的几率会选择后者，而不是把这种基础设施开放给别人，因为前两种要么属于Facebook，要么属于微软。如果在中国是阿里巴巴做成了Alexa，那估计百分百不会选择对接微信。这样一来配合一个语音交互的核心特征，颠覆性的事情就出现了：

语音交互背后隐藏的各种应用具有唯一性。

我们很难想象这样一种语音交互方式：Alexa帮我用Whatsapp给XXX留个消息，明天我不见他了。在语音交互中WhatsApp这类应用的标识很可能会被优化掉。如果Alexa还只是百万级、千万级DAU的应用时那这个特性还不关键，但如果它是10亿DAU的系统，那这个特性的影响就会被无限放大，也就说搜索、IM、电商很可能都只有一家，而不是像现在虽然少，但还有个1,2,3名。

小结

看着不过是又一款新产品，但Smart Speaker这新品类事实上整体上挑战中国企业的文化、方法论和技术水平。形象点讲，如果以Elon Musk做SpaceX的姿态来做，那这事是能搞定的，但以做脑白金的姿态来做，那最多还是一个叮咚。谁有这个决心和能力来搞定这事呢？

订阅号：琢磨事(zuomoshi)