百度深度学习研究院院长林元庆深度分享:百度大脑背后的技术积累及发展方向
今年年初,百度的人工智能机器人「小度」参加了江苏卫视的电视节目《最强大脑》,引起了外界广泛的关注,也让百度的人工智能技术又一次走到了聚光灯下。
恰逢其时,百度在本周举行了它们第五届百度技术开放日的活动。正如百度技术委员会理事长陈尚义所言,百度技术开放日有三个目的,分别是开放技术、共同成长,以及实践社会责任。
百度研究院院长深度学习技术及应用国家工程实验室(IDL)主任林元庆作为百度在人工智能技术领域目前的主要负责人,也在大会上做了精彩的分享。下面是他演讲内容的实录,我们将其整理后分享给大家,通过这些内容,也许我们能对百度这个目前中国人工智能领域领跑者所做的主要工作有一个更好的了解,也能更好地了解百度大脑背后的技术。
林元庆:谢谢大家,今天我就跟大家从《最强大脑》说起吧。
第一部分我们来回顾一下《最强大脑》的历程,大概是在去年 7、8 月份的时候,《最强大脑》的节目组找到百度,其实这个事情让我挺震惊的,他们之前找了一些国内的公司,已经得到非常多的验证,节目组找到我们的时候,也是后来听说百度也在做人脸识别,因此就找过来。我就问节目组负责人,你们为什么不早点找过来,其实我们这边的技术应该还挺好的,他们说我以前根本就不知道百度在做人脸识别。因此那其实也是一个很强的契机,对我们来说,我们希望我们的技术能够让大家都知道,同时也很希望参加《最强大脑》,希望我们的技术跟人类去比,跟非常强的人类去比,看看百度大脑到底在什么样的水平上,我们确实是抱着输赢不是那么重要的心态去的,我一直是这么强调的。
我们是一个技术驱动的公司。因此我们是很希望像人工智能一样把很多技术都做到极致,希望跟特别强的一些选手来比,看看我们的技术到底做到哪一个水平上。我们内部开玩笑说,如果输了的话,我们回去还得继续做研发,如果赢了的话,我们还得回去做研发,只是希望我们真正把技术到极限,能够更好的服务到人类。
图像搜索
下面我们简要的回顾一下,第一个图像检索的技术。左边这个他们是从一些很破损的图片里面抠出来一块,希望在 30 张照片里面,看这块是哪一个小块,因为毕竟在这里面大家能看到,已经经过模糊,加了一些磨损,质量非常非常差。像百度我们其实是有图像检索有这个功能,图像检索的技术百度已经做了很多年,图像检索本身我们已经做的比较成熟。图像检索,以图搜图,图片质量还是相对不错,是整张图片去搜,这样可能有多个信息点,你可以做校验,但是《最强大脑》为了看我们的技术极限在哪儿,因此在这种情况下,只给了一个很小的块,希望在这里面去找,看哪一块是。
这是我们现在最新的研究成果,其实后面的技术,我们也是用了深度学习的方法,深度学习的方法能够很好的处理这种模糊噪声,甚至是角度不一样,百度最新的技术我们是用的非常多深度学习的算法,然后是把这个图像取出来,使用深度学习的方法算出 128 位,但是深度网络学习算的 128 位,像这种算法算出来的,对模糊、噪声、角度的变化各方面有更好的。
我刚才提到像百度有图像检索,以图搜图,你搜一张图,可以找到互联网上类似的照片,像这个技术,现在世界上也只有几家跟搜索相关的公司在做,包括谷歌,还有像俄罗斯的,只有拥有自主知识产权搜索引擎公司在大规模的做。我们是互联网上面拥有百亿级别的照片的公司了,虽然是百亿级别的照片,我们能够在一秒之内返回结果。刚才我们说最新研发的技术,应该是接下来几个月吧,我们会用到新的引擎里面,把现有的服务有一个非常大的升级。
声纹识别
下面我说一下声纹识别,其实跟语音识别不太一样的,语音识别我需要去识别这个人说的是哪些话,是哪几个字,声纹识别指的是谁在说话,这个人是谁,说话的人是谁,因此你就可以想象一下,如果我说的话不一样,内容都不一样,不同的内容其实对声纹识别是非常大的干扰,因为这个形式是非常非常的不一样,对声纹识还有非常非常大的噪声,咱们人类对声音的噪声不是很敏感,你如果是做声音处理这个专业的,你知道现在声音是很容易有非常大的噪声,因此像对声纹识很多情况其实难度很大的。我们播一下这个,现在百度去年投入了非常大的力量在做,但是我们其实知道去《最强大脑》比赛的时候,就知道难度是非常非常大。
我们播一段笑声,你们能判断这是同一个人吗?这是非常难的。并且我们这个题目做完之后,还问了他们节目组的录音,他们就是在笑的时候,一定要跟平常很不一样,有那种喊出来、歇斯底里的笑声,这其实是难度非常非常大的,这个题目当时其实是没有做对。你们可以听一下错误答案,错误答案跟题目听起来更像同一个人的声音,跟第一个笑声是很难判断的。百度在《最强大脑》节目前精度还没有办法做的像人脸识别那么高,因此在当时的情况下我们还是错掉了。这个难度其实是非常高的,现在百度这块做的还是不够,因此我们也会继续的投入很大的力量把这块做好。
解释一下,为什么声纹识突然变得这么重要。第一点是现在身份认证这个场景是非常重要的,包括在银行,包括在很多很多的场景下,身份认证是非常重要,但是人脸识别已经是一种非常重要的方法了。像美国身份认证的标准,就是希望你用两种不同的方法同时认证,认证对了才算过了,他们的一个系统,因此像百度我们已经把人脸做的非常好。因此我们也希望在声纹上能够有一些非常大的突破,把声纹希望做的跟人脸类似或者差不多的级别,对身份认证帮助是非常大。
第二点百度非常重视,是我们所谓的基于 AI 的交互。比如是鼠标键盘,到最近是手机上的触摸屏,我们更希望下一代是基于语音图像或者 AI 非常自然的交互,特别是语音的。你们如果有关注百度,也知道百度投入非常大的力量,在做 Duer 的操作系统,就叫 OS,我们内部把它叫 OS,因为像这些基于语音质量交互的情况,语音已经是一个存在的信号,如果我们能利用那个信号的话,能够识别那个人是谁,说话的人是谁,这是非常非常有用的。因此在这块我们后续也在继续投入,我们技术上已经取得了一些突破,最后我们希望把声纹做的跟人脸识别那样高的精度。
人脸识别
下面我来说一下人脸识别,我今天着重要说的是几个,一个是跨年龄的人脸识别,一个跨代的人脸识别,在这个领域里面都算是非常挑战的,但是百度已经把它做的非常非常好。但是后面的技术其实都是基于我们对正常人的人脸识别的能力,上面的一些扩展,我们最关键是下面的,对普通情况的人脸识别已经能做得非常非常好,能很顺的把那个技术用到一些相对来说比较特殊的场景下。不知道在座的有多少位同学还记得,像这个是一个小孩的照片,这里面哪一个对应这个小孩的照片,如果没看过或者没记得的同学,你们觉得你们能找出来吗?
最后一个是对的,整体来说难度还是非常大的,这里面你们大家注意看,这里面还有一个双胞胎,双胞胎确实是难度非常大,也是在误差范围里面,但是我们比较幸运的还是猜对了,不能肯定我们把双方做的百分之百准确,但是有一定的概率还是能把它做准,这个最后还是把它做准了。刚才台上只有 20 个人,你可以看一下,难度最大的是这个题目,其实你要看 30 张这样的照片,这里面其实还挺难找得,比如我把这个放成一张,大家能找出这个是哪个吗?其实这些难度还是挺大的,正常的人,像这个还是非常非常难的,找到正确答案,大家不信的话,自己可以试一试,比如说家里面找一些照片或者朋友里面找一些照片,难度确实非常大。我们在做这个节目之前,大概测过,类似这样的一张照片,人去找,大概 20% 左右的准确率,我们有一个群,我们说把同学放进来,同学贴一张照片,你们帮我找找看,这张照片里哪一个是我,其实这个准确率非常低,人来做的话准确率是非常低的。
我们在大概 1 月初做了第一期的节目,后面我们希望把这个技术也能够用在一些实际的,对社会非常有益的场景。我们后来跟宝贝回家合作,他们大概给了我们 6 万条的信息,其实大概有一半左右是成人的照片。宝贝回家的平台是这样的,有父母小孩丢了,有小孩小时候的照片,比如像这样的一张照片,这是他小时候 5 岁的照片,这个小孩长大也有他自己的照片,这个小孩很聪明,他有一个 8 岁时候的照片或者更近期的照片,两边有两三万的照片在宝贝回家的平台上。我们的办法就是希望帮他们做对比,因为这是跨年龄的,其实这两张人脸是长得非常不一样的,不一样到什么程度,我相信这个小孩上传了这个照片之后,应该也会到这里面的库,看看有没有跟他长的比较像的照片,但这种情况都没有把对方给找到。我们试之前也有一些做人脸识别的东西,我们其实找到不止这个,还有一些也在验证中,我们也找到另外一个,其实他们已经对接上了,只是平台没有把照片拿下来,但是我们也找到了,这是原来根本没有人发现,我们是发现了,通过 DNA 的验证。
我稍微非常简要地说一下,我们经过了《最强大脑》的比赛,着重讲的跨年龄跟跨代的人脸识别,我可以很自信地说,在这一块现在没有人能做的比我们好,像我刚才也说核心的核心,还是我们的人脸识别基础技术做的非常好。大家也都知道人脸识别基本上是有两个技术,一个是检测,还有一个是识别,检测给一张照片我们能看人脸是在哪里,同时还有把脸上的一些关键点找出来比如嘴巴、眼睛、鼻子。这是检测,检测完之后这个人到底是谁,还有通常的人物验证,比如说验证这两个人是不是同一个人,这是不是不同的人。像百度其实在这上面起步做的非常早,2014 年跟 2015 年的时候,如果大家往回看,现在当然这两个数据都太小了,我们根本也不会去做,因为 2016 年之后没有再去做过这两个数据,因为太小了。但是 2014 跟 2015 年的时候,我们在 FDDB 跟 LFW 上,两年时间没有一家超过我们,在这之前技术有了非常非常好的进步,LFW 再往前做意义也没那么大,一万多张的照片,非常小的数据级。2015 年年底的时候,我们内部非常针对性的,针对我们要解决的问题,人脸识别,我们搭建了非常大的测试级,就训练加测试的集合,我们也是把一些非常简单的数据给它去掉,我们自然觉得是相对偏难的测试级。
当时这个测试级是 8%,我们很多时候讲是深度测试级,可能很多时候可以看 99.7%,这些针对都是 LFW,我们当时在那种测试底下能做到那么高的精度,如果把一些很容易的去掉,难的留下来,这是我们真正要解决的问题。因此当时测试级定的时候,我们拿了过去所有能做的最好的算法,在这个测试级上只能做到 92%。大概在去年百度世界大会,我们在数据跟算法上都进行非常大的迭代跟,8% 降到 2% 以下,这是非常大的提高,为什么呢?因为我们以前做一些算法,20%、30%、40% 就算是很高了,我们基本上是降了大概接近 3 倍,非常大的除以 3 了。其实到现在,在这个上面是低于 1% 的,因此的话几乎是 10 倍左右的提高,这个其实是非常大的提高,因为之前的系统已经是一种非常好的系统,不是很水的系统,我们在这个上面再有 10 倍的提高,并且这个测试级因为它是非常大的测试级,数据的话是非常非常难,因此这个是非常实在的,也就是因为这些,才最后看到《最强大脑》。
现在我们看一些在应用上的,如果你们来百度大厦,现在进出不用刷卡,什么都不用,直接往里面走识别就可以了,这叫 EBN 的人脸识别,库里现在是一万多人,我们能够瞬间识别你这个人是不是百度的人,是百度的人是哪一位同学,从一万多人里面识别。不知道大家多理解这个难度有多大,这个难度是非常大的。从一个侧面我们可以看,大概是 2008 年奥运会的时候,你们如果回去看应该就有报道说,我们可以刷脸进奥运场馆,世博会的时候还新做了一套系统刷脸可以进世博会。那是 2008 年,今年是 2017 年,在座的各位在各个场景下可以看刷脸进出某个地方的吗?非常少,为什么?技术做不到,原来大家觉得这个东西很好做,但是最后其实是技术达不到,我跟你解释一下为什么这个技术会这么难做。首先一个人如果不是百度的人,到这个系统我们要把他拒掉,因此我们叫误通过率,错误的让你进去那个闸机要非常低。
因此立马要求这个系统要非常严格,这个系统你要非常非常地严格,不是百度的人你一定是不能放他进去的,同时的话是百度的人一定得让他进去,别让他在那等一两分钟刷来刷去就进不去,因此你又要很严格又要很松,这个是很难实现的一个矛盾。最后能实现只有在你真正,不管是谁来,你都能很精准地识别,这个才也可能实现。像这个系统,我们现在精度已经做的非常非常高,现在可以跟大家说一个,我们最近升级是 3 月 4 号,一个多月了,这个系统在百度里面,在这个上面一个牌子,刷炸鸡,迎炸鸡。如果我们的机器给你弄错了,上面有一个二维码你可以一刷,你说给我们弄错了,我们的 ID 立马给你送一份炸鸡过来,现在已经一个多月了,这是每天都用,应该是很多人都用。我们总共才送出去两份炸鸡,因此像这个系统安全性精度的要求非常非常高,我们不是第一家做这个的,但是百度的风格在技术上要做到极致。
这里面说到是乌镇落地的情况,注册要身份证,进园区的时候就不用再带身份证了,直接刷脸就可以进去了。像这个在乌镇已经部署半年多了,用户体验是非常好的,这也是我们强调的,在 AI 的时代,还得掏身份证,还得刷二维码,啥都不要了,你可以非常流畅、非常自然的通过,当然这里面对技术的要求是很高的,但是最后技术实现,对我们用户来说是很舒服的。
这个技术我们也用到金融的行业里面,已经在百度金融里面,比如远程开户都在用这个技术,泰康保险第一期非常成功,应该是比很多公司,我们技术确实比他们好,现在与第三方,像政府做的评测反馈回来的,甚至是直接接连开放云上面的接口,基本上都没有经过优化的,比别的工作做的都要好。甚至前两天一个政府的人跟我讲,他原话是这样的,他看到百度的人脸识别,最后的解读,他觉得特别惊讶,为什么能做到这么高的精度。他们之前所有家都看过,心里有一个底线,觉得这个东西该在哪儿,用了百度,我们没有经过很大的把握,告诉他说这个上面我还根据你的场景,可以做进一步的优化,应该会再提高很多。这里面我非常想强调的一点,我们现在在人脸识别上,这只是一个例子,我们的技术真的已经远远地比人达到的水平要高得多,咱们如果回顾一下《最强大脑》第一期,应该是 3 个比赛我们全做对了,跟王峰比了有三张,两张是小孩的,一张是小学毕业照,三个比赛,第三期三次跟水哥的,我们只错了一次,水哥都没有做对。我们总共 7 个比赛只做错一次,人类是三个不同的人,但是最后加起来,其实只有王峰做对了两道题,我们是 6 比 2,当然不是很宣扬说我们赢了或者什么,实际这几个比赛看下来,总结来看就是 6 比 2,并且都是一些非常难的,像这种跨年龄,在做研究的人觉得,这些都是很难一些问题,那这个都已经做的非常好。这边拿一个卡刷进去,看看能不能,其实后来 3·15 之后我还做了一个视频,我在我的手机上录了像都过不去。
前面说的是人脸识别,我觉得是一个非常好的例子,对百度来说,现在在人工智能上希望去应用技术,做非常好的应用,这些对百度来说确实是一个技术基因非常重的公司,我们希望非常多的技术做到极致,人脸是一个非常非常好的例子,现在百度非常多的人工智能领域我们同时在发力,下面我只是非常简要的介绍,部分的领域给大家一些例子。
布局
百度人工智能的核心我们叫做百度大脑,跟人的大脑类似有语音的能力,听的能力,图像的能力就是看的能力,自然语言处理能力,就是有办法对你说的话进行语义理解,对百度非常重要的就是大数据的用户画像,里面需要推荐。这张图的话能比较形象地说明像百度整个在人工智能上面的布局,最上面我们叫人工智能应用,就是我刚才说的百度大脑,只是我里面加了两项,决策跟规划,运动跟控制,我们统称叫做人工智能的基础技术。这是百度人工智能最重要的布局,非常全面,大家能想得到的,基本上在这上面有很好的体系,百度的研发体系也是这么来搭建的,语音识别,硅谷的人工智能实验室。那 NLP 是海鹏老师原来在 NOT 的部门做质量语音处理,这块主要是无人车的团队在做,现在分出来,独立成一个事业部,推荐预测是大数据部在做。现在我们看人工智能的基础技术,下面这些技术的话,基本上都是基于深度学习的平台,我们统称叫深度学习的平台来做的研发,这里面有 PaddlePaddle 深度学习平台,还有大规模的计算资源,GPU/FPGA/CPU 的这个很大的计算资源,然后对百度来说还有非常大的数据。这些数据作为一个基础的能力,然后在这上面去研发各个方面的基础技术。有了这些人工智能的基础技术之后,我们可以做非常多的产品,百度现在有上百种的产品,这里面非常多的产品,人工智能是一个非常核心的技术。
这里面我想跟大家说一下,其实像人工智能技术的研发,基本上有四个非常重要的要素, 第一个就是机器学习的算法,特别是深度学习 ,当然需要 大数据 跟 大计算 ,这里面还有百度非常强调的 大应用 ,为什么?我们希望做的这些技术能够形成闭环,真正能把技术做出来,用到手机里面,然后不断地打磨我们的技术。而下一个这个时代,这个时代的话可能能解释一下,为什么大应用那么的重要,其实人工智能技术研发轨迹跟普通的技术是很不一样的,比如说我们传统上说的精密机床或者是机关器,那些技术大部分是比较现实的,随着时间的变化,它的提高是比较线性的,比较缓慢的,但是现在人工智能前期也会是比较线性。但是到一定阶段,一定会有一个快速发展的阶段,直到这个技术变得非常厉害,真正把问题解决非常非常好。为什么会是这样子呢?这里面因为一个正循环,初始的算法跟数据,我们能够搭建很好的技术,有了很好的技术之后可以有更好的产品,初始算出来的数据跟我们初始的技术,还有这个产品,产品我们今后有更多的数据,而且有更简单的技术。这是一个非常重要的在人工智能研发上有这么一个闭环,如果这个闭环产生非常大作用的时候,这个技术发展就会非常非常快,因此现在我们经常也说,现在百度我们决定哪些做,哪些不做,非常重要的在整个的闭环上面,我们都得需要很强,这个东西真的在百度上能建起来的,有一些东西在百度很难有闭环,那这些东西可能就不是很适合百度来做。
开放技术
下面我就简要地再讲一些技术,我们到底在开放哪些技术,我这里面主要挑一些我们觉得比较容易理解,比较直观的来看一下。比如说现在做的同样的图像识别,比如大家知道联系非常大的,大概是 1000 个类,150 万张照片,如果把哪一类哪一照片放在一起就是这么大的图,现在百度做的,其实这是我们已经做过的,大概是 4 万类,大概 7000 万张照片。以及我们目前在做的比这还要大,11 万类,更多更多的照片。因此我们最后要把这个图像识别真正做到集中,比如说后面,我们拍照里面非常非常多的东西,大部分的东西通过百度的识别技术,都能把它识别好。像这种东西普通的一家公司很难投入这么大精力来做,这个数据的收集也有很大的一个团队,但是我们花了一年多的时间来收集这个数据。看到这个图片技术里面还有物体检测,我们刚才说整张图识别,这个图里面有什么东西,但是这里面更细致的技术是图像检测,给你一张照片的话,我们能检测出这边是一只狗,把这个狗位置给它画出来,把这猫的位置给它画出来,百度在上面,我们的 DenseBox 也是很多人在用的技术。我们也在做图像的分割。OCR 是百度花了很多年一直在做的技术,外面也有一些公司在做,我相信跟我们比还是有一定的差距,公开数据,这些数据都不算是特别大,我们只是把它当成一个指标,但是我们不觉得它意义有那么的决定性。但是最重要的是像很多的产品,像 OCR 每天的 P 位在五六千万的级别,每天我们做 OCR 识别,这个量是非常非常大,因为像今年的话可能都会过一个亿,因此外面有一些公司在做,量级上差别是非常非常大的。OCR 也是同样的,我们有检测,看看字在哪里,检测完之后可以做识别,这是百度翻译的一个应用,你如果在国外,我们把你识别完之后,还可以直接帮你翻译,看看这个字是什么意思。
这是百度做的身份证识别,这个可以做的非常实时的,在手机端上面,可以做精度非常高的识别,同样在银行卡的识别已经做到百度钱包里面,精度做的非常高,都是可以直接在手机端上面的。现在我们也在做做视频分析,视频的分析其实分两个方向,一个其实是视频的语义理解,是短视频非常热的方向。那我们需要去理解这个短视频里面到底发生了什么事情,谁是谁,到底这个是干什么,对吧。那这个是偏语义的理解,长视频剪短视频,很多时候你需要对视频有语义的理解。这是一个方向,我们现在投入很大的力量在做。
下一个说的是另外一个跟这相关的,但是还不太一样的方向:自动驾驶的场景。像现在说的这个 Stereo Visual Odometry,就是说我们能够在给我们这个视频的话,我们能精确的估计现在摄像头 SYZ 在什么位置上,就是说它的摄象头目前的精确位置,并且摄像头的朝向,基本是三维重建,是非常重要的一步。
这个技术我们现在会跟深度学习的技术一起,希望能够实现,比如说从录像、摄像头进来,有路面,有标顶,有房子、有树、人、车、自行车,我们希望进来的每一个像素都能知道这个像素是路面,这个像素是天空,这个像素是房子,这个像素是人还是车,在这个百度希望达到 99% 的精度,这是非常难的一个方向,但是我们觉得如果我们能攻克这方面的技术,对很多很多的应用印象都非常多,
我们希望这个技术会跟深度学习的技术一起,能够实现比如说从录像、摄像头进来,有路面,有标顶,有房子、有树、人、车、自行车,我们希望进来的每一个像素都能知道这个像素是路面还是天空、人、车等等。在这方面,百度大脑希望达到 99% 的精度,这是非常难的一个方向,但是我们觉得如果我们能攻克这方面的技术,就是非常非常厉害了。现在的增强现实大家做的都是非常简单,我们希望真正的增强现实是对周围的环境有非常好的语义理解,我知道这个杯子是在桌面上,还是在地面上。这边是棵树,还是是个植物,这些东西我们需要对这些东西都有非常非常好的理解,这样做出来的 AR 就更好。像这块的话,在座的同学如果感兴趣,我们这边需要有非常非常大的团队,希望真正把这个技术解决得非常非常好。
百度也在花大力气做医疗图像,目前在建团队,有一些非常强的人加盟,我们希望把这块变成非常大的一个方向。
我前面就简要地讲了一下现在百度的一些技术,这里面其实我确实省略掉很多的东西,包括语音识别,包括自然语言识别技术,这是非常非常酷的一个事情。比如说你坐在家里,想看中央 5 套体育节目,你不用自己找频道了,让百度找频道,直接可以对话,不要什么遥控器,直接告诉它说帮我转到中央 5 套,它就给你转过去了。或者你说声音小点它就可以小点,看到屏幕上的明星们,你说这个女演员到底叫什么名字,什么情况,这些都可以实时的交互,做的都非常非常的智能,直接是语音交互的,并且能做的非常自然跟流畅,这些今天基本都没涉及到,因为时间的问题,我只讲了计算机的识别。
投入与开放
最后一部分的话,我们希望我们的人工智能是开放的。刚才尚义也提到,我们要把我们做的非常多的技术跟大家分享,今天很多的开发者在这儿,我们是把大家当成一个朋友,像百度做的很多人工智能技术,能通过百度,通过大家真正去落地。从去年开始的话,李彦宏一直在讲百度的下一幕就是人工智能,这个是很需要去做的。最近有一些比赛说,像百度人工智能很大气,百度人工智能是最重要的战略,但是大家很不理解,为什么百度突然说人工智能,人工智能已经变得非常好。比如说最大的产品搜索。难以想象,这两个最重要的产品如果没有很多的人工智能。比如图片的理解、文本的理解,很难想象我们能有现在搜索的服务。
因此先从内部来看,李彦宏说人工智能下一步是非常之难的,我们一定要把人工智能技术做的非常好。这是之前我们说 AI 是一个新的电缆,我们希望 AI 能像电的发明那样,能够影响每个行业里面,能够进到各个行业里面,实现各个行业的升级。在这上面百度的投入也是很大的,15% 的比例,这是非常非常高。我想在国内应该是最高的,跟总收入比,科研跟收入比例是 15.3%,是非常非常高。百度不是今年突然这样子,是过去一直在研发上做投入,过去两年基本上都是投入的大概超过 100 个亿来做研发,2015 年是这样,2016 年是这样。
人工智能对于百度来说是非常重要的一个机会,公司也是敢于投入,我们希望在这上面做的非常好。这里面我要提一下国家工程实验室,可能对在座的来说应该是非常有意义的。我刚才提到了,很早的时候提到了人工智能有四大要素,这里面有底层的 PaddlePaddle 或者是深度学习的算法,还有大数据还有大应用。这四个要素,我们希望在国家工程实验室都有非常好的体现,也说了我们要怎么来建这些,这里面我们要建七大平台。百度会参与到所有的平台里面,跟清华一起建三个平台,跟北航一起共建两个平台,因为要做产业落地,就要在标准化上,还有知识产权上需要去做非常好的工作,很重要的一点是,我们建这些都会往外开放。
特别像下面的这部分,深度学习的这部分,现在 PaddlePaddle 已经开了,但是还不够,现在一方面做一个教程,一些同学应该已经看到第一讲、第二讲、第三讲,这个深度学习的教程也非常详细。我们在深度学习平台上,下一步会很快,我们会开放一些机器,现在很多情况是这样子,你拿了 PaddlePaddle,但是你还得去买 GPU 的机器,甚至你要买高端一点的 GPU 的机器,还得建一个机房,因为很多 GPU 机器是比较耗电的,如果有机器的话还需要制冷,因为很多机器很烫。这样的话需要大量投入,如果在国家工程实验室这个平台上,后续我们会把机房和计算的平台建好,这个也会对社会开放。
后面你要训练一些模型,或者在很多机器上训练大的模型,你直接在深度学习,国家工程实验室的平台上,你只要一个账号进来就可以做你想做的事情,并且在这上面 PaddlePaddle 跟在那上面的计算平台都已经非常好的优化好了,不会说这个东西兼容性很差,毕竟在那上面的话,那是开放的深度学习平台,开放的计算资源。我们研发出来很多技术也会在那上面开发,因此大家不需要再重复造轮子,已经用了很多的技术在这上面,大家就可以用了。最后一点大应用,如果你们在这上面做了非常好的性能技术,这些百度也会开放,在百度一些产品线上可以来用你开发出来的东西,这些都是可以商量的。
刚才说的 PaddlePaddle 平台,官网上面有很多的介绍。刚才提到计算资源,比如这个计算资源我们会非常 Open,我们会去在硬件上做很大的优化,比如在百度有一款 GPU PCle,这个上面如果深度学习做得多的话。商业化的这种机器一般是四张卡,最多是八张卡,我们这个机器最多可以容纳 128 张卡,超大规模深度学习的一个硬件,我们与之对应开发了非常好的软件来管理这个计算平台。
现在目前还不是所有的技术放在平台上,在百度比较成熟的,相对比较成熟的一些技术,我们就做好了,在这平台上进行开放,现在已经开放了非常多的技术。包括图像、语音、自然语言处理、用户画像的大数据、视频智能分析、AR,很多很多技术在这上面开放。
我就说这些,谢谢大家。