斩获世界互联网领先科技成果, 百度AI做对了什么?
2016 年是人工智能第一个甲子年,同时也迎来人工智能的又一次复兴。过去的几个月里,人工智能各个领域突飞猛进。3 月,AlphaGo 完胜人类围棋选手李世石九段,震惊世界;4、5 五月间,无论是微软还是 Facebook 的开发者大会,无不将人工智能放在重中之重;9月,随着百度首次向外界全面披露其人工智能成果——百度大脑,基于人工智能的新巨头格局逐渐形成,10 月的一期《财富》杂志用一篇深度报道探讨了百度 、Google、微软、Facebook的人工智能「四巨头」。
11月16日,第三届世界互联网大会在乌镇互联网国际会展中心举行,在最为引人关注的就是世界互联网领先科技成果发布活动中,百度的人工智能核心成果——百度大脑成功入选15大领先科技成果,成为国内唯一一个入选的综合型人工智能技术。
从外媒眼中的 AI 四巨头到互联网大会世界领先科技成果,百度的人工智能到底做了些什么,又踩对了行业发展的哪些关键点?
人工智能基础技术护城河
当前人工智能的侧重点在于基于深度神经网络的机器学习,简称为深度学习。神经网络并非什么新鲜词,但在这几年逐渐成为整个人工智能行业研究的重点,这离不开以下三大领域的突破:算法的优化、计算能力的提升以及海量数据的「喂养」。
在百度的人工智能布局中,PaddlePaddle 深度学习平台,也就是并行分布深度学习占据重要地位。作为内部研发的深度学习平台,构成了百度大脑的算法模型。更重要的是,PaddlePaddle 可以实现 CPU/GPU单机和分布式的训练模式,可以实现数百台机器并行运算,轻松应对大规模的数据训练的任务。
其次,计算能力的高低对于能否实现算法至关重要。百度目前拥有专门为人工智能定制的超高速异构计算集群。这个被称为「AI超级计算机」的产品也构成了百度大脑计算能力的基础。有几个数字可以让我们一窥这个「AI超级计算机」的能力:围绕「AI 超级计算机」的累计产生专利超过60项、相关国际论文数量超过 10 篇、能耗显著下降,实现数据中心平均PUE1.15,相当于每年节省650万度电,每年二氧化碳减排6300余吨。
第三,在数据层面,互联网公司天然具有数据的优势,而百度作为中国最大的搜索引擎,拥有的网页数据、搜索数据、视频数据以及定位数据都位居业界领先地位。在海量数据的喂养下,利用超强计算能力的帮助,完成算法的优化和升级,构成了百度人工智能的护城河,也正如百度首席科学家吴恩达所言:数据会成为百度人工智能火箭的燃料。
四大基础能力
「能听(说)、会看」是衡量当前各大公司人工智能发展水平的重要参考标准。在基础架构竞争之外,这个层面也是各大巨头研发投入的重要领域,包括语音识别/合成、自然语言处理、图像识别等。
以听(说)技能为例,在《麻省理工科技评论》评选的「2016年十大突破技术」中,基于语音识别的对话界面( Conversational Interfaces )成功入围,而要让人机对话有效,不仅要让机器听懂人的话,还要做出适当的反馈,《麻省理工科技评论》认为:百度硅谷实验室研发的语音识别引擎——「深度语音系统2」(Deep Speech 2),拥有一个大型深度神经网络,基于端对端的深度学习技术,可在数百万转录语言库的基础上学习如何将声音和语句联系起来,语音识别率精确度极高。目前的语音识别准确率为 97%。
全球范围来看,语音识别技术已经达到临界点,由此也推动了语音合成以及自然语言处理方面的快速发展。比如基于语音合成技术,用户可以在百度多个产品里体验到与真人语音一样的合成语音,用户只需要按照要求和机器说 50 句话,便可以让每个人拥有自己的声音模型,这项技术目前在手机百度小说频道取得显著成绩,用户听小说的时间从原来的 40 分钟提高到现在的将近两个半小时。
另一方面,自然语言处理作为人工智能领域的一颗「明珠」,在深度学习的帮助下正步入一个全新的爆发阶段。如果说语音识别开启了人机交互的新的一扇窗,那么自然语言处理则成为人机交互下一步发展的助推器。
下面这幅图来自 KPCB合伙人玛丽·米克尔 2016 年互联网趋势报告的分析:
在这个新的人机交互领域,亚马逊依托 Echo,不断扩大 Alexa 的影响力,Facebook F8开发者大会上将其虚拟语音助手Messenger引入聊天机器人,Google I/O开发者大会上发布其年底推出Google Home智能音箱,而百度则通过自然语言交互领域的积累,结合海量数据挖掘形成的知识图谱,在机器翻译领域取得不小的进展,目前百度的机器翻译支持 27种语言互译,702个翻译方向,并获得 2015 年度国家科学技术进步奖二等奖。
事实上,人工智能各项能力的竞争并非单项比赛,而是各个单项互相促进形成的团队作战。比如图像识别的显著进步直接推动了OCR识别技术的发展,这也不难理解当百度人脸识别准确率达到99.7%后,其OCR 技术在国际文档分析与识别大会(ICDAR)最具挑战性的自然场景类文字识别任务中,斩获五项冠军。而通过大量人脸图片的识别,结合语音识别以及自然语言技术,所带来的显著进步则是用户画像的精准把握,由此带来的应用想象空间非常大,比如传统搜索之外的新一代入门。
短期和长期的应用布局
入口对于互联网公司而言,重要性不言而喻。百度、Google 垄断了 PC 互联网的入口,iOS、Android 则构成了移动互联网操作系统层面的入口,但是到了后移动互联网时代,入口之争也成为人工智能短期内落地如何的参考标准之一,如果说 iOS 有 Siri,Windows 有 Cortana,那么百度的武器则是度秘。
度秘在过去几个月里已经充分展现了在多个领域(虚拟、现实)中的良好应用场景。比如她「前往」KFC,成为首位机器人员工,帮助顾客实现从点餐到支付的全流程自动交互;比如她在高考报志愿期间担当报考小秘书;再比如奥运篮球比赛时担任的人工智能解说员等等。
不过,入口之争毕竟是短期布局。长期来看,人工智能要征服的下一座大山就是无人驾驶。目前无人驾驶领域的玩家大致有三大类:传统汽车公司、新兴汽车厂商如特斯拉;互联网巨头。这其中,百度作为互联网巨头的代表,在这个领域拥有不小的话语权。
去年 12 月,百度无人驾驶车实现了城市道路、高速路、环路混合路段下的全自动驾驶,同月,成立自动驾驶事业部,将自动驾驶业务放在重要战略层面。到了 2016 年,先后完成了乌镇、芜湖、上海国际汽车城等地共建无人驾驶示范区的合作,并获得美国加州自动驾驶汽车道路测试许可证,同时完成了在加州的首次海外公共道路测试。
这一切的背后,离不开上文所言的人工智能三大基础设施与四大基础能力的支撑和完善。在百度自动驾驶核心技术架构中,高精地图、智能感知、智能控制三大模块构成了操控汽车行驶的「汽车大脑」。以高精地图为例,只有图像识别领域的基础技能,才能使其具备强大的 OCR 能力,从而能够将采集到的全景图片,自动进行目标识别,实现百度地图中的POI、导航等信息的快速更新。更进一步来说,实时完成全景图片的识别,对于整个后端的计算能力要求非常高,这也正是深度学习系统PaddlePaddle 和AI超级计算机的功劳,而这些技术对于汽车实时感知周围环境、快速实现路径规划并预测车辆、行人行为有重要意义,也从根本上保障了自动驾驶的安全。
目前,无人驾驶领域的竞争正步入白热化阶段。现在各大公司对于无人驾驶磨穿擦掌的样子颇有20 世纪初的样子,彼时,汽车行业正在步入大工业发展的轨道,由此带来的是对人类交通的改变,与交通一起被改变的,还有人类生活的城市,因此,无人驾驶多引发的行业变革、产业变革乃至社会变革,或将重新塑造人类生活、工作的环境。各大巨头都着眼于未来三到五年实现大规模商业应用,而百度也制定了「三年商用、五年量产」的目标,其接下来的发展也颇为引人瞩目。
综上来看,百度依托算法、计算能力和数据构成的护城河,在人工智能基础能力层面持续不断创新,语音、图像、自然语言处理等技术驱动了百度内部多个产品的进化和升级,更重要的一点在于,将人工智能与无人驾驶的结合,将撬动一个百亿乃至千亿美金的市场。百度当前的技术研发和应用布局,未来三到五年,或将成为左右中国乃至世界互联网的重要变量。正如李彦宏在世界互联网大会全体会议上所言,「在座的每一个人,你们所处的每一个行业、你们所在的每一个国家,会因为人工智能时代的到来而发生巨大的改变,我们需要重新想象每一件事情、每一个行业、每一个市场。」