百度人工智能准备怎么商业化,林元庆说百度内部定了四大方向
但在这个领域研究多年的人不少,商业化却始终是一个避不开的问题。
尤其是各大科技巨头押宝的语音交互,一直面临着声学和语义识别等技术难题,让体验的用户体验显得遥不可及。不过在某些细分领域,已经有相当成熟甚至已经落地的技术,比如人脸识别、语音识别、声纹识别和大数据挖掘等。
其中 百度 也做了不少努力,明知自己已经错过了这个时代的他也最为渴望在下一个时代逆袭,因而每天喊着要占领 人工智能 时代,但这个领域的商业化非一日之寒,于是爆款产品一直没有出现。
不过,之前 百度 深度学习研究院(Institute of Deep Learning,简称IDL)主任林元庆曾在接受采访时表示, 百度 之前主要做技术的积累,2017年希望在市场上大规模应用。
IDL是百度研究院下的其中一个实验室,从研究院的架构可以对其公司的战略也窥探一番,百度无人车事业部就是从其中孵化出来的项目。
最近,他跟媒体聊了聊,百度人工智能有什么落地的应用,又准备如何商业化。
他说,在整个人工智能的应用来讲,其实经常有朋友跟他讨论下一步的发展在哪里,他所观察到的,在百度里最成功的应用,一是搜索跟广告;第二是金融;第三个是EDU,就是智能驾驶。
人脸识别应用的四大方向
人脸识别是百度做得比较好的方面,也是百度人工智能商业化最高的板块。百度的人脸识别较早的落地例子,便是百度内部的人脸识别闸机,这可以说是这个技术的内测 。
林元庆表示,在百度的科技园里,大部分百度的员工已经注册人脸识别闸机,可以刷脸进楼,目前注册的超过一万人,他说未来应该很快会到五万人,也就是百度全体员工都会注册。
因为像这个就是我拿一张人脸,要跟库里的一万多人去比较,这个技术比传统上的银行用的1:1的人脸识别要难很多。
除了百度自己的小范围公测之外,乌镇的进出西栅景区的人脸识别系统也是由百度提供,已经运营了超过半年。
他说,今年应该至少会有一百个以上的4A、5A的景区启用百度的人脸识别系统,目前已经在洽谈,包括一些美国和欧洲的公司,希望使用百度的人脸识别。火车站、机场等场所,也在跟百度合作。
景区等作为一个线下的入口,频次显然比不上手机等入口。实际上,手机中有非常多的场景,可以用到人脸识别,移动支付就是其中一个,因此蚂蚁金服也很早就开始研究人脸识别等生物识别技术。
林元庆表示,百度也在非常积极地跟手机厂商合作。“我们现在跟国内主流的手机厂商也合作,我们希望把我们的人脸识别能够落到手机上,未来就像指纹一样是开机密码,指纹已经做得很成功了,但是指纹安全性也算比较低的,人脸安全性要高很多。”
可以看到,安防是目前对人工智能需求比较高的场景,大部分的应用也是集中在有关场景。总体而言,百度今年人工智能应用的落地计划,也是在相关的场景和方向。
不过林元庆认为,百度更多聚焦在互联网相关的方向上,人脸识别的商业化,百度内部定了四个大方向。他认为四个方向基本上都非常互联网化。
第一个是闸机的情况,就是1:N的高精度识别。这方面的智能闸机主要会落地到景区,还会落地到百度这样的大企业、写字楼,这是第一个方向,1:N的人脸闸机。
第二个大方向是交通,简单来说交通就是铁路、机场。
第三个大方向是金融。他表示,银行是百度非常看重的场景。百度金融服务事业部群组的消费金融服务、百度钱包,以及现在很多的现金贷、远程的身份认证也已经应用了百度的人脸识别技术。
现在身份认证在金融的第一个应用,内部迭代就是在百度金融,还有泰康、银行等等,像泰康身份认证已经上线了,评价非常高。还有很多客户,金融从场景来看可能是最重要的。
第四个大方向是手机。
软硬结合是未来趋势
不论是图像识别还是语义识别,都涉及到了信息的采集,因此对硬件设备的要求不低。为了将人工智能技术发挥到极致的效果,需要对硬件也做优化。此前对渡鸦科技的收购和智能家居部门的成立也能体现出百度对硬件的发力。
2 月 16 日,百度宣布全资收购做智能家居中控硬件的渡鸦科技,创始人吕骋任百度智能家居部门总经理,直接向百度集团总裁和首席运营官陆奇汇报。同日,百度也宣布将原来的度秘事业部升级为事业群,直接向陆奇汇报。
这一软一硬的动作,基本反映了百度在人工智能方面软硬结合的战略布局。陆奇也在内部邮件中表示,这对于奠定百度智能交互平台的领先优势以及打造软硬件一体化的核心竞争力有着非常重要的意义。
当天,林元庆在这次采访中也特别强调了百度未来对硬件的重视。
你们可能听说过,百度原来觉得不需要做硬件,也尽量不做硬件,但是现在我们其实挺强调软件结合的。因为这也是应用驱动的,我们也不是一成不变的。
他表示,像人工智能方面最后的解决方案,比如像智能驾驶,很多是需要将硬件也一起优化的。还有刚刚提到的人脸识别的闸机,比如很多景区可能到了下午阳光就非常晒,摄像头会受影响,这时候就需要开发出来足够好的摄像头,把主要的曝光集中在人脸上。
现在人工智能技术如果要落地的话,都需要考虑软硬结合,把性能给真正的发挥出来。因此,在新的条件下,软硬结合是人工智能时代应该要做的事情。
说完人脸识别的应用方向之后,林元庆提醒,除了百度的图像识别之外,百度的语音识别,同样在去年入选了MIT十大突破技术。他认为,从2016年来看,语音识别技术在百度里面已经取得非常大的商业化发展,比如说最近成立的度秘事业部,“语音交互变成了一个非常非常重要的领域”。
此外,他还提到,在声纹方面,也有一些应用,比如现金贷和身份认证场景,除了人脸识别还会走一下声纹识别。这个技术后续在度秘的场景很可能会快速推进,他以唤醒为例:
要知道谁在跟度秘说话,你说完这段话之后,我知道是你说的,几个人说完之后,我就能记住这个话是某某说的,那个话是某某说的。
百度觉得自身有什么优势?
每天在努力PR自己人工智能技术的百度,对于外界来说,可能感觉这更像是一个虚无缥缈的概念,甚至凸显了这家公司渴望扭转形象的决心。不得不让人狠狠地发问一句:究竟你们有什么优势?
嗯,刘元庆在现场也被问到了这个问题。 他的回答是:算法和数据。
林元庆解释,算法的强弱取决于两点,
第一是设计比较好的计算方法。
五年、十年前,大家设计算法时,都是依靠人为设计一些特征,去设计通过什么维度的特征计算,比如选出1千个特征,然后再去做比对。他以人脸识别为例,以前的情况是:
人工定位这是眼睛、这是鼻子、这是嘴巴……嘴角长这个样子,眼睛放在这里……最后我综合这些信息:你的眼睛长这样,嘴巴长这样……这成为一个一千维的特征,最后表达成一千个数据。比如嘴巴,第一维上是0.1,如果特别尖的嘴角就是1,如果不那么尖、比较圆就是0.5,最后是一个类似打分的东西,这些叫特征向量。这些特征向量,最后就可以拿去做人脸识别了。一张新的照片来,就可以按照这个标准来比对,每个部分的分数是多少。
然而现在,基于深度学习的算法却不是如此简单,数据量起到了非常大的作用。深度学习需要非常多的数据,去学习那些特征是特别有用的,然后调整要怎么计算才更有效。他举一个比较极端的例子,假定这个算法发现,所有人的嘴角都是尖的,这个特征就没有用了,就扔掉了。
因此,机器能自动发现一些特别有用的特征,这些就是为什么深度学习变得特别有用,就是说它能够去海量的数据里面学一些特别有用的特征。
如今,算法在这样的语境下,指的可能就是深度学习的一些架构。在人脸识别上,就需要有非常好的基于深度学习的人脸识别的算法,比如这些位置、这些线是怎么连的。
从上面的过程来看,可以发现,决定算法强弱的第二点就是,是不是有拥有足够的数据来训练机器。
如果数据很小,就看到一个人嘴角是尖的,你就以为大家嘴角都是尖的,这就不行。当然这里面也有很多技术能够让你进行海量的数据训练。比如如果算法特别慢,可能算一万个数据得一天,连一个数据就得几万天,这就是做不出来的。
至于数据,其实就是来源于全网的数据,比如在人脸识别上,主要就是互联网上所有的照片比如之前在《最强大脑》的节目讲解中,他们就披露了使用了大概200万人的2亿照片来训练,不过,这里面的数据,除了少部分是买的,大部分还是从互联网上抓取的。
可是这互联网上的数据,难道不是不仅百度有,别人也有吗?林元庆说:不一定哦。
为什么捏?其实林元庆说的数据,更准确来说应该指的是,从网上抓取、收集数据,然后分类、打标签等一系列的能力。
比如抓取和手机数据方面,他说“你用百度的爬虫还是谷歌的爬虫”,可能是不一样的,“这些都是技术,收集这些数据,还有一些特别的服务,这些都是很有学问的”。至于后来的分类和打标签,则会用半自动的方法去做,算法会辅助人工去打标签。