王小川首秀搜狗语音纠错：突破语音识别最后3%

搜狐科技 • 8年前扫码分享

我是创始人李岩：很抱歉！给自己产品做个广告，点击进来看看。

2016 年 7 月 16 日，极客公园“奇点·创新者峰会”在上海召开，包括特斯拉联合创始人 JB Straubel 、超级高铁 Hyperloop One 高级副总裁 George O’Neal 等数十位来自国内外科技企业及学术界的大佬分别针对虚拟现实、人工智能等前沿科技主题进行了演讲和讨论。

王小川首秀搜狗语音纠错：突破语音识别最后3%

上午压轴出场的搜狗公司 CEO 王小川，发表了人工智能应用主题的精彩演讲《我们应该用 AI 创造什么》，更成为了唯一一位现场进行 AI 技术演示的演讲者。利用搜狗公司的语音识别技术，王小川的演讲内容在现场实时生成了滚动字幕显示，目测准确率高达 95% 以上。同步的字幕引起了现场观众极大的兴趣，纷纷起立拍照。在演讲结束后，现场语音识别成果立刻生成了完整的演讲稿，观众通过扫描二维码即可阅读。

王小川现场邀请了一位观众上台体验了搜狗输入法的新功能 “ 语音修改 ” 。用户对着手机说出一段文字后，再通过自然语言的方式将语音识别错误的地方进行修正，赢得了现场热烈的掌声。王小川介绍道；“目前搜狗手机输入法日均语音输入调用次数超过 1.4 亿次，是中国最大的语音识别引擎，语音识别准确率已超过 97% 。但当前的人工智能技术仍然无法让语音识别达到 100% 的准确率。对此搜狗开发了语音修改功能，通过自然语言交互的形式修改所输入的文字，比‘将弓长张改为立早章’等，不仅解决了语音识别准确率最后 3% 的差距，同时解放了用户双手，提高了用户输入效率。”

在王小川看来，“带着技术找市场”与“找市场时丢了技术”都是不可取的，“ 树根是技术，树干是产品，真正开花结果是最后的市场 ”，当前人工智能企业更重要的任务是抓住市场、深挖技术，创造连接市场和技术的优秀产品，而搜索引擎本身就是这样一种人工智能。搜狗的使命就是让表达与获取信息更简单，真正成为人类生活的助手，而这也是人工智能未来最重要的发展方向。

以下为演讲全文：

大家好，我本人是人工智能的鼓吹者。在大家谈互联网的时候，我们就开始谈产品；大家谈产品的时候，我们就开始谈技术；大家开始谈技术的时候；我们已经开始谈人工智能。那今天大家都在谈人工智能，我要谈一些什么东西呢？

感谢李志飞，其实他的演讲我非常喜欢，我很感谢他把我想讲的东西都已经讲完了，很多理解是一样的。李志飞在最后说，今天没有给大家带来一个演示，搜狗带来了，请看大屏幕！我们预料到了今天网络可能有故障，所以我们把服务器搬到了现场！

那么我们在谈人工智能的时候，我会谈一些反思，因为今天大家可能过多高估了人工智能的未来。在今年上半年，我是鼓吹 AlphaGo 这样一场跨世纪的比赛， 4 ： 1 的比分。那么之后就像一场启蒙运动，所有的公司所有的投资把眼光都看向了人工智能，在全球范围内的投资异常地活跃，中国也一样。那在这个时候我更多想谈到，我们得小心什么地方是陷阱，什么地方是真的人工智能的未来？

就在前一个月，我去谷歌跟 AlphaGo 的工程师做了深度的沟通。有件事情我得告诉大家， AlphaGo 并没有停止研发，还继续在往前进步。但是我跟他们聊的时候，谈到到今天为止，跟李世�下棋的第四局，机器还是赢不了。我是非常惊讶的，已经过了 3 个月的时间，所以我跟他们说，有什么样的算法可以改进赢得第四局的比赛？谷歌的工程师跟我苦笑，他说你讲的方法我们都试过了。

回到我们深度学习。今天大家知道有一个巨大的危险，因为传统做人工智能的专家就在预言，深度学习有一些缺点，稳定性不够，在一些需要可靠性的场景里面，没有完整的数学的计算和证明。所以这种情况里面即便是 99% 的正确性，也可能会带来不确定，比如在无人驾驶，这 1% 的不确定性，就可能带来汽车的失速，而且不知道怎么修正。所以我们今天会知道，深度学习我们认为可以做很多的事情，但是到现在我们人类的技术掌握还是比较浅的。那么我也谈到在语音识别这样的一个话题，今天语音识别已经到了比较高的准确度，已经接近实用，但是其实还是很多的限制。比如说我们需要安静的环境，当有噪音的时候同时有两个人说话机器就搞不定了，我们的办法是，比如说在汽车环境里面，预先录制发动机引擎的声音，或者是噪音加到识别里面去，就把没有见过的环境变成机器能够见过的环境，就能够做识别。

但是我跟工程师聊，那其它的环境，如果有两个人说话怎么办？总有一个人的声音是听不到的？我们的解决方案是用麦克风举证，有一种麦克风可以定向识别，如果两个人不同的位置不同的声音，声音的音源可以分离开。人是这样吗？人是靠两只耳朵定声音吗？如果只有一只耳朵，或者两个人在同一个方向说话会怎么样？人是能识别的对吧？机器就做不到了。所以我在这张图里面跟大家演示，我也问了搞神经科学的人，他们说人跟机器有本质的区别，如果两个人说话的时候位置不一样，人可以分离开，如果位置一样，一个人声音大，一个人声音小也能分开。如果两个人的声音一样大，一个是男声，一个女声也可以分开，如果都是男声，但一个人说中文，一个人说英文也能分开。所以人是在一个环境当中，只要能够找到一线机会，把两个声音的不同找到一个特征，就能动态地去分离。但对不起，今天在全球范围内，我们号称在语音识别有重大的各种各样的突破，还是解决不了这样的问题，所以我们知道今天的计算机离人还有巨大的距离。

那么除了这样的一个技术本身的瓶颈以外，我们在创业当中有很多领先的技术公司还会面临什么样的瓶颈？很危险的一种可能性就是有技术，带着这种技术找市场。比如说我们做了人脸识别，就开始想象人脸识别怎么去使用？就去找市场的方向，但是很有可能在这个过程当中没有找到，我们公司就死掉了。也有一种可能性是在找市场的过程当中，我们花了很多力气组建我们的销售团队，我们尝试跟各个领域结合，但是这个时候忘记了技术的源头，因为技术是不断地迭代更新，如果不能跟高效、前沿的技术保持同步，可能我们偶尔找到一点市场，但是我们的技术已经落后。今天在中国的人工智能领域里面，做语音识别、图象处理的公司有好多已经掉到这样的陷阱里面去了。所以这个创业的道路，我跟投资人讲没有那么容易，技术本身不那么靠谱，即便技术靠谱可能没有市场，即便有了市场可能我的技术已经丢掉了。

还有一种我们的做法，已经有广大的市场，搜狗的输入法、搜索已经有千万的用户使用，这样的情况下，我们找技术的时候就会更加踏实。所以我在这里画了一个简单的树，就是市场技术跟产品之间的关系：树根是技术，树干是产品，真正开花结果是最后的市场。所以有一些情况里面，是当我们有根的时候要努力发芽长树干，等它能开花结果，中间的困难是非常多的。而还有很大的困难是，如果我们有了这样一些果实，我们有了市场的时候，或者我们认为我们有市场的时候，把根基丢了。

人工智能跟高校、跟学术界的联络非常多，国内需要的做法，不是从国外学成归来之后我们做技术，或者忘记了这样一个研发的进展就去找市场，而是不断地跟技术的前沿保持同步。比如李志飞一定有他的工程师团队读论文，甚至在这个里面写自己的论文，把前沿跟上。人工智能创业不像有互联网的创业一样，而是不断地把技术更迭起来。

那么这个里面也提到一个命题的作文，我们怎么讨论技术跟幸福之间的关系？我做了一张简图，左边是我们提的一些技术，包括语音识别、人脸识别、人机交互、服务机器人等等。大家觉得这个词跟幸福有关系吗？在座大多数的人本身不是搞技术的，因为大家敬仰技术，崇拜技术，所以我们会过度地在技术里面想象它无限的光环，其实跟幸福没有关系，其实是因为我们的不理解，恐惧和向往带来一种误解。看右边，右边这些听起来我就觉得比较酷了，自动驾驶、能听懂我说话、诊断疾病、一键送咖啡。听着怎么样？是不是有幸福感？左下角的词大家看到了吗？活捉皮卡丘，大家知道我要说什么吗？最近非常火的虚拟现实的游戏，不是在像左边一样讲虚拟现实，而是讲带来了一个把活生生的卡通形象放在我们面前，这是我们看到的幸福。

所以对比左右两个图，无论创业者，还是媒体人，还是投资人，我们应该看到当我们的技术能够让我们有幸福的时候，那它更有可能成为一个技术变成一个产品，变成一个市场成功的应用。跟大家讲讲我们对于搜狗技术跟幸福之间联系的理解。其实有朋友跟我谈搜索的时候说王小川你今天挺高调的，不停谈人工智能，你们要转型做人工智能了么？我说不是，搜索本身就是一种人工智能，而且是有幸福感的人工智能，因为它能让每个人变的更加地强大。

有时候我跟一个 90 后走在一块，我发现他很厉害，他无所畏惧，因为他知道拥有了搜索之后，他能解决所有的问题。上面一搜索就有答案，所以今天的这些年轻人利用技术，利用搜索变的更加地强大，拥有了更大的幸福感。

那么再多补一句，为什么说搜索就是一种 AI 呢？先看一个简图，搜索第一部分是让用户先要去做一个关健词的搜索，然后给它提供 10 条链接，这是搜索今天产品运行的基本方式。但是这个关健词是我们最好的输入模式吗？今天大家已经很习惯了，我回顾 1999 年到 2000 年，搜索刚刚出现的时候我观察过，那个时候大家更愿意敲整句话，但发现机器不能识别，所以大家被训练使用这样的关健词。这个就像计算机使用鼠标一样，大家都会很习惯用鼠标，但是今天我们发现乔布斯告诉我们，更好的方式是用手指直接在屏幕上戳，所以关健词的输入相对于自然语言的输入就像鼠标和用手指自然表达一样，是需要继续提升的。因此搜索引擎往下的进展方向就是把让人去想一个关健词，变成让人去表达一个完整的句子，机器找出中间的含义。同样的 10 条链接也不是我们最想用的方式，而是应该通过用户的问句直接给出答案或者是命令，机器做执行。

因此今天搜索的进化对搜索引擎公司是一个渐进的过程，就像谷歌，他已经提到自己从一个移动互联网公司变成一个人工智能公司，那为什么他没有做到这个东西呢？听着很好听对吧？是因为今天全人类的技术，距离做到让机器去理解人，能变成一个句子给出答案还是有距离的，只是我们在这条道路上一直走。人工智能引入不是颠覆性的市场，而是原有的需求渐进的改进，对谷歌，对我们一样，包括对百度也是这样的逻辑。

所以我们提到搜索公司本身就在做人工智能，如果大家看搜狗觉得不过瘾可以看谷歌，他已经代表了人工智能在今天运用的最高峰。因此在现在的应用里面类似于 Siri 还有其他的交互功能是我们的梦想，我们判断这样的未来是属于搜索公司的。好，给大家看一个我刚刚提到的美妙的动画。这个片子我相信大家都看过，其实是代表未来人工智能在我心中的方向，搜索公司未来走的方向也是向这里发展的。

我们谈到语音输入，今天是被大家吐槽特别严重的领域，也是我们发展的一个重要环节。大家可能不知道搜狗是中文语音识别用户量最大的应用，我们一天有 1.4 亿次的语音识别量，准确率超过 97% ，搜狗输入法的用户，刚刚提到做语音识别是不够的，我们还会在上面做什么呢？给大家看一段视频。我们怎么把 97% 继续提升？搜狗在当前语音输入的基础上加入了自然语言修改功能，让用户可以用更直观自然的方式修改目前技术无法达到的 3% ，同时解放了用户的双手，真正给用户的生活带来便利。

OK ，我的演讲到此为止，大家可以在大屏幕上看到，我的演讲已经被自动识别成了一篇完整的演讲稿，并给大家一个二维码供下载。谢谢大家。