百度世界大会李彦宏“百度大脑”全揭秘

投资界 • 8年前扫码分享

　　人工智能对于百度来说意味着什么呢？李彦宏用简单的四个字来描述，就是「百度大脑」。

三年前，李彦宏就已经说过，百度大脑已经具备了大概两三岁孩子的智力水平。

百度大脑基本上由三个大的部分组成：第一个组成部分是人工智能的算法，第二个组成部分是计算能力，第三部分是数据。

「比如，我们已经收集了全网上万亿的互联网网页内容，这其中包括了很多视频、音频、图像，这些数据也是数以百亿级的。」李彦宏强调百度的数据资源之丰富。

那么，百度大脑具体又是如何发挥应用的呢？

9月1日，百度世界大会在京召开。百度公司创始人兼CEO李彦宏发表主题演讲。

以下为李彦宏演讲实录，略有删节：

欢迎来到2016百度世界！今天我的主题演讲将围绕着人工智能展开。

今年6月份，我在百度联盟峰会上讲了一个概念，叫做互联网的下一幕。下一幕是什么意思呢？就是说，互联网的发展在此之前已经经过了两个非常重要的阶段，第一个阶段大概持续了十几年的时间，就是我们讲的PC互联网阶段。第二个阶段是在最近四五年，我们把它叫做移动互联网的阶段。对于中国市场来说，随着上网人数越来越多，上网人口的渗透率越来越高，现在已经达到了七亿多，就是说已经超过了50%的渗透率，同时，每一个上网的人现在也基本都用上了智能手机。

　　 这意味着什么呢？这意味着，未来互联网的增长不能再靠人口红利来驱动了，也就是说，移动互联网的时代其实正在离开我们。 这可能是很多人难以接受的。我们国家现在进入了所谓的新常态，经济的增长需要靠「互联网+」行动计划来推动，所谓「互联网+」就是希望用互联网的思维方式、互联网的效率来推动各个行业、产业的继续发展。但是，我们互联网的从业者其实又深深地感受到了这其中的危机，这个危机就是因为过去的粗放增长阶段已经结束了。

　　 移动互联网之后的下一幕是什么？其实现在已经很清楚了，就是我们所说的人工智能。 人工智能对于百度来说是核心中的核心，我们也很幸运，在过去的五六年当中，百度花了很大的精力投入到人工智能的研发当中。

　　 人工智能对于百度来说意味着什么呢？我可以用简单的四个字来描述，就是百度大脑。 百度大脑的概念我们其实在大约三年前就对外讲过。那个时候我们讲，百度大脑已经具备了大概两三岁孩子的智力水平了。自此以后，不断的有人来问我，尤其是今年人工智能突然火起来了之后，很多人来问我，你们这个百度大脑现在相当于多少岁人的智力水平了。

要回答这个问题其实还蛮难的，我也不知道它现在是多少岁了，因为毕竟人脑和电脑它还是有很大的区别，百度大脑虽然是一个人工智能的大脑，但是它和人正常的发育过程还是很不一样的。

　　 百度大脑到底由什么构成的呢？它基本上是由三个大的部分组成的。

　　 第一个组成部分，就是人工智能的算法。 我们有超大规模的神经网络，这是模拟人的神经元组成的网络，但其实我们也不知道真正人脑工作的原理是什么，只是想象当中应该是这个样子。我们还使用了万亿级的参数，人脑的神经元大概是千亿级的，我们也有千亿的样本和千亿的特征进行训练。整个这些东西组成了百度大脑当中算法的部分。

　　 百度大脑的第二个组成部分是计算能力。 现在我们已经使用了数十万台的服务器来进行计算，而这当中很多的服务器不是基于传统CPU的服务器，而是基于GPU。早年的时候，GPU主要在游戏等领域使用得比较广泛，在人工智能、尤其是深度学习起来以后，我们发现，其实GPU特别适合人工智能的计算，尤其是深度学习的计算，一块GPU可以顶100个CPU的计算能力。

　　 百度大脑的第三部分是数据。 数据也非常非常重要，而且这个数据量也是非常大的。比如说，我们已经收集了全网上万亿的互联网网页内容，这其中包括了很多视频、音频、图像，这些数据也是数以百亿级的。我们还有每天数十亿次网民的搜索请求，而且还有每天数百亿次的网民定位请求。

　　 百度大脑到底有什么样的功能？让我们来看一看。

　　 今天重点介绍四个功能： 一个是语音的能力，一个是图像的能力，一个是自然语言理解的能力，还有一个就是用户画像的能力。

　　 这几个能力虽然都是属于人工智能中比较典型的应用，但是它的发展阶段也是很不一样的。

比如说语音，现在就已经进入了相对比较成熟的阶段，在很多很多领域中都开始进入实用阶段，识别的准确率也已经很高了。图像最近几年也有了长足的进展。这两者都属于人工智能当中认知的部分，所以深度学习的算法非常适合处理这些形式。

相对来说，自然语言的理解或处理能力就更加难一些，并处在一个更加早期的阶段，因为它除了认知方面的能力之外，还要求有推理、规划等能力，才能够真正地理解自然语言。用户画像的能力，其实从传统意义上来讲，并不是人工智能的领域，但是由于近年来大数据的发展，尤其是大型互联网公司有能力搜集很多用户的数据之后，再用人工智能的方法、用机器学习的方法，就可以把一个人的特征描绘得非常非常清楚。所以今天，用户画像也变成了人工智能或者说变成了百度大脑的一个重要功能。

　　 下面我就分别来讲一下百度大脑的几个功能。

　　 我们先看一下语音，语音分成两个方向，一个是语音的识别，一个是语音的合成。

　　 我们先看看语音识别。 今年MIT Technology Review（《MIT科技评论》）杂志，把百度的Deep Speech 2评为「2016改变世界十大突破技术」，这就是百度的语音识别引擎，它已经到了第二代，主要就是使用了深度学习的能力。这样的一个技术已经可以把语音识别的准确度做到多少呢？大概可以做到97%的准确率，这样的准确率已经达到，甚至有时已经超过了人对语音的识别能力。当然，我们讲这些能力不是为了简单地去炫耀这个数字有多好，我更感兴趣的是，当你有了这些能力时，它可以在什么领域应用，又可以在哪些方面帮助到我们，这其实才是最让我们觉得兴奋的地方。

　　 先给大家举一个电话销售的例子，是一个To B的应用。 很多的公司其实都有电话销售这样的一个部门，其实有经验、最优秀的销售和一般、较差的销售相比，在效率上有非常大的差别。我们怎么才能够让新手具备最优秀的销售能力？过去的做法是，把优秀的销售经验总结成册子让大家去学习，让这些销售去背，但是怎么活学活用还是需要一个过程的。而有了这么高精度的语音识别能力之后，我们就可以彻底改变这样一个状况了，甚至可以让一个刚刚上岗一个月的销售就具备最优秀的销售能力。我们可以通过实时的语音识别甄别出用户或客户在问什么问题，然后我们再实时地在屏幕上告诉新的销售，最优秀的销售是怎么回答这个问题的。过去没有实时的语音识别的时候，你需要线下学，学完了之后上去用，很容易就忘了，但是有了这个系统之后，我们就可以解决这样的问题。

　　 语音合成是什么意思呢？就是机器可以把文字转换成语音，把它念出来、读出来。 今天的语音合成也有了和过去非常不一样的体验，最主要的就是，它可以用比较自然的人的声音读出来，而不是像过去机器一样，每一个字之间的停顿都是一样长，是匀速的、没有表情的。这样的体验，当然对于用户的黏性来说也是有很大的作用。

　　 那么这种读出来的和我们平时听到的广播有什么本质上的区别？ 广播是每一个人听到的东西是一模一样的，而今天的语音合成，它可以做到每一个人听到的东西都是不一样的，完全根据你个人的需求进行定制，这就是为什么它的用户黏性会很高。不仅如此，其实我们可以想象一下，它如果能够模拟一个自然人的表达方式或发声能力，它就可以模拟任何一个你喜欢的人的说话方式。

　　 对于百度来说，百度大脑的语音合成能力可以让每个人都有自己的声音模型。 你只要按照我们的要求说50句话，我就学会了你说话的方式。当你拥有自己的合成声音之后，比如说家里的老人想经常听你说一说，你把这个声音合成出来让他听就好了。或者你平时要加班，小孩睡觉之前想听个故事，你合成自己的声音给孩子讲一遍这个故事，听起来也会很亲切。所以大家可以看到，这些语音的能力会带来各种各样新的可能性。

　　 下面我给大家讲一下图像。用一个比较专业的术语来讲，叫做计算机视觉。 这也是现在广义的人工智能中非常重要的领域。

　　 说到图像的识别，我想大家自然而然会想到一个人脸识别的应用。 今天人脸识别的准确率已经达到了99.7%，已经非常非常准确了。那么，人脸识别这个技术是怎么实现的？我们要对人脸的特征提取它的关键点，把这些点打出来之后要做一些处理，把它连成一个面部表情，据此来识别一个人。

　　 除了面部识别之外，图像识别在很多领域也有应用。 比如我们到一个陌生的地方之前，想看看那个地方的全景图。当然，这个图不是一个简单的图像采集，我们采集了图像之后要对图像中各种各样的目标进行识别，这个大楼是什么大楼，那个路牌上面写的什么字，对写的这个字识别的话，跟人脸识别还不太一样，这里面有一个特殊的图像识别技术就是OCR，这个是二十多年前我们的一个专利，到今天它的准确率已经非常高了。

　　 无人驾驶汽车也是一个非常需要图像识别的重要领域。 无人驾驶汽车涉及到很多很多的技术，比如需要计算机视觉的技术，需要高精度地图，需要对环境的感知，需要定位，甚至需要语音的通话。但应该说，计算机视觉或者图像识别的技术是「最后一公里」，无人驾驶汽车真的要变成没有人，真的要能够解决99.999%，甚至100%的情况，要识别各种各样的极端情况，最终还是要依靠计算机视觉的能力。

　　 我们再给大家展示一个领域，就是增强现实AR， AR其实也非常依赖图像识别。拿着手机拍一下现实情况，我们要能够识别出来这是哪，这里面有什么，然后才能跟用户进行互动，才能产生真实世界和一些虚拟世界的完美结合。

　　 下面我们再看自然语言处理。 自然语言处理其实我刚才也讲了，它的成熟程度应该不如语音，甚至不如图像识别，但是即使在目前的状态下，它也能够给大家带来很多很多不一样的体验。

　　 最直接的例子应该是我们去年在百度世界大会上讲的一个例子，就是度秘。 度秘是一个个人智能的助理。度秘跟用户进行交互，现在已经有超过一半的交互是通过语音和图像来完成。

度秘除了能够识别语音和图像之外，其实它更关键、更核心的技术，是能够用人的语言来与人进行交流，并且能够理解人的很多意思和意图，尽管不是每一次都能理解。我们也利用度秘的自然语言能力，做过一个比较有意思的应用，就是解说奥运篮球。

　　 下面我们讲百度大脑的第四个能力，就是用户画像的能力。 用户画像也是基于百度的大数据以及机器学习的方式所获得的一个能力。现在我们已经有接近10亿的用户画像，其中对于他们的识别我们已经用到了千万级的细分标签。这些标签主要在两个维度上体现，一个是通用的维度，他的人口学特征、短期的意图、位置属性；也有一些垂直行业的特征，他在金融领域是什么样的情况，他在保险、医疗、旅游、健康等领域都有什么样的爱好、习惯，这些东西共同构成了我们的用户画像。

　　 用户画像有什么用途？

　　 首先给大家举一个百度内部的例子。 最近几个月大家可能注意到了手机百度，除了上面的搜索框之外，下面增加了各种各样的文章。这些文章有时候是新闻，有时候不见得是新闻，但是确实是你感兴趣的东西。之所以它能够把你感兴趣的东西推荐出来，就是因为我们利用了百度的用户画像。我知道你是一个什么人，你喜欢看什么样的东西。有了这样的个性化推荐，过去两个月手机百度推荐的文章阅读量增长了10倍，这种能力就是靠百度给用户打了60多万个标签，而每个用户都是这其中某些标签组合后描画出来的，所以它可以做到千人千面，准确地讲，不是千人千面，而是万人万面，亿人亿面，每个人对于百度来说都是不一样的个体。所以，每个人看到的信息和文章都是不一样的。

　　 再给大家展示一个外部的例子。 6月份上映的电影《魔兽》，就是利用了百度大脑的用户画像功能来提升它的票房。那么它是怎么做到的呢？这个做法很聪明，它把人群分成三类，一类人是不管怎么样都要看的，另外一类是不管怎么样都不会看的，这两种人他们都不太关心。它关心的是它可以影响的人群，通过用户画像把这些人从摇摆的转换成真正去电影院看的。最终，百度用户画像能力为《魔兽》带来了200%的票房提升。

讲到这里，我基本上把百度大脑几个主要的大功能都已经呈现出来了。