人工智能时代，语音技术怎么赚钱？

i黑马 • 8年前扫码分享

人工智能时代，语音技术怎么赚钱？

高新技术怎么赚钱、做什么赚钱，是一个永恒的话题。

本文由深蓝DeeperBlue（ID:cyanhillvc）授权 i黑马发布。

半个月前的锤子手机发布会让全国人民（包括我妈）知道了一家叫科大讯飞的公司，以及语音智能这件事。

我没有在现场。据说老罗向观众们介绍了锤子的主要合作伙伴科大讯飞的一款产品——讯飞输入法。老罗用很快的语速说出一大段长文字，讯飞做到了无时差翻出文字版本，并且识别结果几乎没有任何偏差，堪称完美，现场一片欢呼。

讯飞输入法支持 19 种方言输入，相比苹果的 Siri，以及微软的 Cortana, 讯飞输入法显然在本土化上占尽优势。

讯飞输入法背后的公司叫科大讯飞，是目前国内最大的智能语音技术提供商。第二天，科大讯飞的股价在开盘点迎来了新高。 鉴于从 2008 年科大讯飞上市开始股价表现平平，不少人表示终于熬到了可以套现的时刻。

除了讯飞，国内在近几年内崛起了一连串致力于智能语音的创新公司，典型代表有思必驰、声智科技，以及云知声。

人工智能时代来临，语音技术公司的春天又来了。 围绕 AI 的创业团队如雨后春笋，智能语音技术的应用成为它们打开市场的首要选择，几乎每个月都会有数款语音交互机器人发布。除了硬件，语音服务平台也迅速被建立。键盘作为输入系统即将被停留在上个时代，人类将用语言和机器进行交互。智能家居和车载成为语音产业最集中的领地，也即将诞生出先的爆发市场。

然而， 高新技术怎么赚钱、做什么赚钱，是一个永恒的话题。 事实上，热炒的讯飞输入法、讯飞语点以及讯飞语音云，仅占讯飞的总营收 3% 左右，收入不足千万。道听途说的还有一件事，科大讯飞每年 20 多亿的收入，其中绝大多数来源于铺网线和做教育工程的集成，并非是高精尖的智能语音技术。

上个月，在深圳举办的一场小型内部智能语音研讨会上，思必驰副总裁、声智科技创始人，以及来自峰瑞资本、祥峰投资的两位关注人工智能的早期投资人进行了关于“语音技术如何赚钱”的话题讨论。恰好我在现场，觉得说得非常不错，有些段落简直堪称精彩。于是要来了录音记录和版权，分享给大家。 这里也许有你想要听的实话、真话。

—— 深蓝DeeperBlue 季星

2016.11.11

研讨嘉宾

人工智能时代，语音技术怎么赚钱？

2012 年智能手机出现后，短短几年内，国内就涌现了一大批语音相关的公司，像云知声、思必驰、科大讯飞，发展都非常迅速，很快进入了公众的视野。这也得益于手机这个智能终端的发展，使得语音成为手机上的一个重要应用。

而在 2015 年，我们依然认为语音是一个非常好的投资机会。原因有以下两点： 首先，虽然在过去的两到三年里，人工智能的发展使得语音技术取得了很大进步，但我们发现实际准确率仍然不够高 ——虽然大家根据实验数据进行宣传，说准确率达到了 95% 以上或者更高，但实际情况是，在实际使用时并没有那么高。

抛开算法和技术方面不谈，前端的很多问题我们还没有解决。我打个最简单的比方：过去我们讨论的语音识别技术，有点像人类的大脑——在听到声音之后，我们如何进行翻译，或是怎样把它变成大脑可以理解的信息。但实际上，关于耳朵的问题我们还没有解决——如何排除噪声干扰？如何在多人讲话的时候会听清想听的内容？如何在距离较远时分别声音的方位？ 前端的语音/声学交互的很多问题如果得不到解决，整体的体验始终不够好。

第二点，从数据上看，苹果上语音搜索的使用率其实并没有那么高，原因在于，手机虽然不是键盘的，但触屏的体验还是很好的。发展的前景在于智能硬件：在手机之后，大量智能终端的爆发，包括家居、车载、可穿戴设备、机器人等，这些智能终端上的键盘——或者说手指就变得更加不重要以及不友好，而语音则变得更加友好和重要。

人工智能时代，语音技术怎么赚钱？

思必驰语音智能后视镜，驾驶员在跟机器交流的时候，可以随时打断机器的说话，让他去执行其他任务，让机器做你临时想做的事情。可以解放双手，让驾驶更安全。

基于以上两点，我们认为，语音技术还会有更多发展和进步。

关于语音技术，大家其实一直都面临一个问题，就是怎么赚钱？ 科大讯飞 20 多亿的收入，其中绝大多数是铺网线和做项目工程，前沿科技类的东西其实是没有赚到钱的。

在线上，我们本来可以提供 API 赚钱，但后来百度免费了，那其他人也只能免费了。做 APP 去对接服务，大家会觉得手机上的用户习惯、行为习惯还没建立起来。所以我想问就这个很实际的问题听听大家怎么看。

人工智能时代，语音技术怎么赚钱？

这个问题很好，也很难回答。对思必驰来说，我们现在是在考虑怎样把钱烧掉，并没有考虑怎么赚钱这件事，这件事情确实是比较难。

现在其实大家能够看到，从 PC 和互联网到移动互联网、再到其他，语音很可能是一个方向。语音作为一个便捷的交互方式之一，随着智能硬件设备的迭代更新，它有可能会成为替代触屏的交互模式。这也是为什么资本和技术都聚焦在这一块， 使得人工智能的一个小春天在寒冬中诞生。

赚钱这件事情，目前我们确实看不清。

但是围绕着这个方向，我们可以看到一些大方向： 一个是核心技术以及产品体验的提升， 这是必须要做的。 第二个则是， 我相信大部分公司，在未来肯定会有一笔相对不多也不少的技术授权费之类，虽然这部分不足以满足资本需求。

然而我仍旧相信，未来无论是 2C 也好、2B 也好，在这个环节上大家都在探索。这条路径是曲折的，但方向一定是正确的。

人工智能时代，语音技术怎么赚钱？

我先简单介绍一下祥峰投资，我们是新加坡淡马锡旗下的 VC，主要关注消费和技术领域的中早期投资，在人工智能方向投资了地平线、Maxent 等。下面我从投资方的角度简单谈一些看法。

要看怎么赚钱，最主要的是找到需求在哪。 在看了这么多创业项目后，我们会思考在中国的消费生态下，那些赚钱的公司是怎么来的？其实核心是抓住用户的真正的需求点，从需求点出发，考虑怎么样去做产品，然后追溯到你的上游，再到顶层甚至是芯片，找到哪里有机会。

首先，在手机端，语音作为输入方式是有需求的，但刚才大家都说，现在如今只是在手机上做一个语音识别的技术，提供一个输入的方式，希望通过输入法建立 APP 来收费，显然这在今天已经是不太可能的事情了——现在，没有一个类似百度输入法这样键盘输入的 APP 还是收费的。

即便语音是不一样的输入方式，但想要收费还是很困难的，特别是当大佬们都已经在做的时候了。 这个时候，就要找到一个需求场景，并且上面没有其他方案可以和你竞争——一个语音可以扮演重要角色的场景。

比如智能家居中的音箱，就是一个很好的例子： 你不可能在音箱上去触摸，也很难用其他键盘去输入。 因此，如果你找到一个和音箱产生交互的方式，那么显而易见你就是最好的，因为没有其他强有力的替代者。

再说汽车。其实汽车里面，多年来大家使用的旋钮、按键，本身是一个非常好的人机交互方式——它未必比语音输入的效率低，反而效果很好，因为你可以做到盲操作。设想一下，在车里面我要换电台的时候，我不用看中控，就可以摸到旋钮去操作，或者在方向牌上有一个旋转的轮子，可以让我调整音量之类，这已经是最好的人机交互方式了，而通过语音增大音量或是切换频率，则未必能更加直接和准确。

但是， 在车中还有很多旋钮无法解决的其他需求。 比如。后排的一客需要和车发生交互——现在很多车都有后排独立的空调系统，当乘客觉得后排的温度太低了，希望空调调高一点的时候，现在的情况是只能让驾驶者把后排的空调调一调，或者后排有自己调整的方式，但它未必是自动的方式。

如果能够做到，通过一个很好的语音识别的阵列工具，很好的分辨出不同乘客的方位，到底是在主驾、副驾，还是后排的左边或右边，根据他们发出的语音指令满足不同人的需求，就能产生一种新的交互方式。除了空调，还有的需求比如切换一个电台、换一首歌，等等。

那么从产业链上游来看，这么多年， 芯片一直都是一个可以赚钱的事情。 在语音识别这一块，做语音的处理芯片，比如 iPhone 使用的 Cirrus Logic，在语音处理这一块的算法做得非常好，它解决了语音降噪、方位识别上的关键问题。有了芯片作为载体，就可以基于传统芯片的商业模式去挣钱。

人工智能时代，语音技术怎么赚钱？

Cirrus Logic 推出的 CS44130 可以为整个音频信号链提供芯片,包括模拟或、数字输入和扬声器喇叭输出之间的各个部分。它精小的设计可以大大简化产品的设计。

往下走，在芯片的下游，模块也有赚钱的机会，就像今天声智科技在做的事情一样。如今的产业链分工是非常细的，很难再有像过去的飞利浦、西门子这样的大公司，核心的部件、全器件的研发，一直到最终的产品都是由一家公司来做。在分工很细的情况下，芯片公司不可能再去做一个产品，也很难再去做一个模块，中间其实需要的是一个做阵列的公司：把产品以一个模块的形式提供，同时不仅仅做一个 PCB 板把芯片放上去，而是把算法结合在里面，体现出附加值。

最后， 生产用户真正使用的一些产品也有赚钱的机会。 比如类似于 Echo 这样的终端产品，京东和讯飞也在做，之前也有一些创业公司在做。不过，真正有机会的创业公司是能够去开拓一个新的市场领域的。就音箱来说，这是一个长期存在的行业和产品，那么，可不可以创造出一个新的产品形态？在这方面，创业公司往往拥有更大的机会，比如大疆在无人机领域能做到今天的体量，是因为它完全开创了一个新的产品品类。

人工智能时代，语音技术怎么赚钱？

图为 Echo Dot，它的场景就不是用来听歌的，而是一个语音助理。

比如说机器人，虽然现在大家还没有普遍使用机器人，但是它一定是一个趋势性、未来性的东西。 在家庭场景中，使用最为广泛的其实是扫地机器人。 很多人买了一段时间就未必再用扫地机器人了，其中有各种各样的原因，可能扫得不够干净，也有它不够智能的原因——它是在完全没有规划路径地在乱扫。 如果现在我们能够加入更多智能的东西，包括语音的交互，它就有可能成一个真正的智能机器人。 你可以呼唤它：“扫地机器人，到我这里来，把这个房间打扫一下。” 而不是拿一个摇控器操作，或者走过去把它提过来。你的声音传递给他，他就知道你的方位，就会自动朝你的方向走，这也是一个可以提升用户体验的方向。

人工智能时代，语音技术怎么赚钱？

为什么会说语音技术赚不到钱？ 其实是一开始没搭建好商业模式。刚开始提供云识别，是 to VC 的模式， 强调的是公司的品牌影响力。那一旦开了免费的口子，之后就无法再收费了。

我们现在希望能先把 “蛋糕做大了” ，之后怎么分蛋糕大家再商量。但现在整个市场还没有起来，所有做语音技术的都在烧钱。

声智科技的起步有点特殊：它一开始就做硬件，大家看到很多的展示的产品，有我们授权的，也有我们自己的，都可以让我们从硬件中直接得到收入，相对来说，我们最初的商业模式是非常简单的。

人工智能时代，语音技术怎么赚钱？

图为声智科技的主要产品方向

但就像刚才我说过的一样，这个是有问题的。光看硬件，是不足以吸引公司对我们的定义产生理解的，我们很难再做一个大规模的公司，这个时候，我们对硬件加软件后端的理解就和讯飞产生了一些差异，我们并不把语音交互只看作一个输入法，也就是说， 我们把它定义为类似于其他的操作方式的升级。 我们把它看作搜索的升级，也就是让语音交互可能成为下一代的搜索。而我们现在做的是现代搜索的一个入口，有点像以前的浏览器和后面的百度、谷歌之类。可能我说得比较大一点，就是将我们原先的交互方式升级。

我们回想一下，在 PC 端时代，我们用得比较多的是谷歌和百度。那个时候，我们要打开浏览器、输入内容，再去查找网页，但是到了移动互联时代，用手机时我们会发现，在手机上，我们很少去打开一个浏览器，打开百度、谷歌，再去搜索内容，至少频次明显比原先在 PC 上的频率小很多。 现在，我们已经更习惯打开 APP ——实际上，通过 APP 的形式，搜索已经被折叠化了。

我们现在知道，谷歌和亚马逊对智能音箱很感兴趣。提到智能音箱，我们又会发现，当我们面对没有屏幕的音响是，你就不会去输入或者打开 APP 了——也就是把搜索进一步折叠了，折叠的结果是，你去直接问它，这个效率明显比前两个的效率更高。实际上， 这些都是由人性决定的——人的本性就是，喜欢向着简单、高效去发展。

这个时候我们会发现，语音会改变未来搜索的状态：现在的小朋友如果适应了智能音响的交互方式，很多时候他就会直接提问，而不是打开 APP，或者像 PC 时代一样，输入很多需要查找的信息。

人工智能时代，语音技术怎么赚钱？

电影《 Her 》的海报，电影中的主角爱上了他的智能设备——一个来自语音识别系统中的声音。电影预言：在未来，人们都离不开基于语音识别技术的智能系统。

我们现在有一些微薄的收入，但是以后我们在里面怎样能够产生更好的方式， 对我们来说，就是硬件+芯片，这在以后会产生更好的营收。 移动端有很多 AP、很多的巨头，但是这到底能产生一种什么样的新的商业模式，可能还都是在探讨和摸索中。

现在很多巨头，不用考虑营收，所以它们会尽量去做。对我们来说，只能先有硬件，然后下一步加轻量的方式，维持公司正常的商业运转，然后下一步，看看会不会像我们预想的一样，语音能够下一代的搜索入口、甚至发生入口大战，然后形成新的商业模式，能够改变我们很多的行为习惯。这就需要各方面去探讨和摸索， 甚至还会掉进很多坑。

我相信第一波会有很多家公司做进去，因为大家经常说，第二波公司会做得很好，每个时代的发展都经常出现这样的情况。关于定位，我们也不敢说什么，只是先给大家提供完整的解决方案，不管是机器人、智能音响、车载， 我们都更希望，大家共同开拓这个市场。 同时，我们本身也是非常开放合作的。