百度少帅顾嘉唯:智能辅助搜索和无人驾驶才是深度学习的精华
按:本文作者董飞,整理自百度深度学习研究院人机交互负责人顾嘉唯在硅谷关于智能计算和无人车的讲座雷锋网 (搜索“雷锋网”公众号关注) 首发,转载请注明出处和作者。公号:董老师在硅谷。
前天看到新闻苹果10亿美元投资了滴滴,感觉是醉翁之意不在酒,苹果在2013年WWDC上就发布了iOS in the car的车载系统,后来升级成为CarPlay,后来又从特斯拉挖角,研发成本大幅上升,可以揣测秘密筹备自己的无人驾驶技术iCar,而滴滴庞大的用户量可以给苹果提供真实的大数据样本,对于苹果自主研发智能汽车和智能驾驶都是直接获益,所以这次可以说是为了无人车布局,具体怎么整合到iOS,我们期待一下6月的WWDC见分晓吧。
这是一周前百度少帅在硅谷关于智能计算和无人车的讲座。全文整理如下:
顾嘉唯是谁?
顾嘉唯是百度深度学习研究院人机交互负责人,主任研发构架师,百度少帅,主要研发项目为新型用户体验和智能化(包括 可穿戴设备 、智能交通、智能家居、机器人和 物联网 )
他主导利用深度学习和大数据的人工智能技术创造自然的用户界面和新颖的互动方式。 领导项目包括:百度智能眼镜BaiduEye,盲人智能助理DuLight,实时变脸App脸优Face-It和百度 智能自行车 DuBike等。
他所在百度的IDL(深度学习实验室)是由余凯建立,现在余凯创业做机器人智能——地平线机器人公司。
先从一个引子说起:现代人最焦躁的问题, 没wifi,一直在载入和没电 ,每时每刻都在用手机。而其中微信可能就要占用85%以上。它就是一个超级APP。
| “互联网+”的实现
自互联网衍生以来,其发展经历了三个阶段:
第一阶段: 满足基础的通讯功能(通讯,门户,社交)
第二阶段:满足大众娱乐需求(视频,游戏,电商,音乐,阅读,服务)
自互联网于1995年兴起到现如今2015年,我们正在实现从第二阶段到第三阶段的过渡。而O2O(On demand service)在中国的兴盛也由中国市场的两大因素构成:社会劳动力价格低廉,服务需求密度高,以至涵盖了生活各个方面的生活服务类APP的兴盛。因此当代的年轻人都更为热衷于用这种更方便快捷并且能获取充足信息量的方式实现生活中的服务需求:电影购票,美甲,按摩,买蔬果,上门寄养动物,甚至上门打胎……
吐槽:这么多APP,手机能装得下么?
即使你已经觉得这样够方便了,但其实其中还存在着小bug,当你被大量可选择信息淹没的时候,你的选择障碍症让你无从下手。当你需要在不同的App上切换以实现信息处理、物品购买、微信沟通、导航的时候,你仍然会觉得焦头烂额…….因此,更加智能化的设备具有很高市场需求以节省人类的时间和精力。但还是需要回归到商业本质——那么,如何商业化?
连接的力量 ,比如微信、Google搜索、VR、机器人、无人车都是不同的信息连接方式。物联网连的是物,更是数据,数百亿的仪器就可以看做数百亿个sensor,将数据收集起来,传输到云上,通过机器学习,把浩如烟海信息转化为对我们有价值的知识,产生巨大商业价值的同时,也让我们更加了解我们自己和周围的环境。
Amazon Echo 已百万级的销量,入户后相对高频的内容场景,回味之前发的微信朋友圈一条评价Apple Siri、Google Now、MSFT Cortana、Amazon Alexa的record,很明显,Amazon Alexa在硬件入口上的投入和坚定比Google MSFT Apple都有耐心得多 。
自然人机交互 Conversational UI 对话交互在手机上一定是最容易开始,但也最快会过去的一波。 在手机这个小盒子里, Facebook 也好微信也好上各种talk bots想要通过智能多轮对话交互完全取代APP的愿景是好的,场景是纠结的。Amazon Echo的阶段性成绩算是开启了智能对话交互新一代终端的“feature phone”早期时代,谁能做出“iPhone”让我们拭目以待。
体会总结如下三条:
1、持续投入底层识别语音NLP整条链基础技术;
2、背后的数据服务链接,从内容调用到服务消费行为;
3、利用一定的刚需培养用户交互习惯作为切入点,市场的持续教育培养,耐心与坚持。
回顾历史,最早是基于命令行,然后有了图形界面GUI,之后有了平板,很容易上手,现在是语音,手势的NUI,未来人机交互是什么?AIUI的革命创新。
现代年轻人从物联网——
移动互联网
——移动“互联网+”的需求的逐步提升。当用户不断地在不同的APP之间跳转时我们需要一个更智能化的平台,这个平台能够打通不同APP之间的边界,把人找服务(APP)的模式改变为服务(APP)找人的智能化模式。
AlphaGo算是Google的PR,验证了深度学习的力量,而智能辅助搜索和无人车才是精华。事实上,下围棋还是有限范围内的解决方法,而道路变量还是非常多,是在一个更大的维度上。通过高精度地图,高精度摄像,红绿灯识别上还是很多复杂因素。 不是简单的数据问题 。
另一个问题是在如今如此繁荣以及多样的O2O服务平台上, 某个用户无法实现能够同时拥有大量的面向不同产品的APP并从中筛选出最优化信息 。因此,百度在研发度秘一类的产品优化了这种用户体验,即通过与度秘对话聊天的形式,来智能化地提供给用户需要的服务建议以及服务连接。在去年百度大会上,李厂长就演示了通过度秘语言操作点了一杯咖啡,直接送货上门的服务。
这其中很酷的一项功能是度秘可以通过图像分析来解读用户的需求。比较有趣的一个例子是:如果你把腿磕破了,可以上传照片给度秘,度秘会提供药品以及附近医生的建议。上面就是与肯德基订餐的活动。
| 如何实现从“互联网+”到“智能+”
虽然现阶段APP十分盛行,但是在不久的未来,以下三个要素会实现更智能化的all demand service。
个人助理是很大可能是下一代的搜索引擎,通过自然原因处理,语音识别,人工智能的结合。
-
不断提升的智能系统(Emerging Intelligence)——人工智能的提升要基于数据量的提升+数据算法的提升
-
场景感知 (Context Awareness)
-
无处不在的计算 (Ubiquitous Computing)
-
深度学习
-
从“互联网+”到“智能+”需要以下几个要素
-
AI 技术的实现
-
人机交互技术 (CLI – GUI – TUI – NUI (natural: speech, gesture))而NUI是现阶段各大网络公司在投入研发并希望抢占市场先机。
-
互联网的智能化反作用会逐渐重塑人类的行为习惯,从而改变现阶段产品的形态及种类。
-
互联网和送达人的服务不再由人来完成而是由机器人完成。
而联网设备(Internet of Things),设备联通(Smart Device)和智能化家居产品(Home Automation)这几个技术的完美结合可以创造出未来的只能家居,不同的智能化设备对场景的感知与判断并不是单一的逻辑结构而是不同智能化设备之间能够相互通讯以保证设备之间没有摩擦。
| 人工智能的发展与展望
顾帅用下面有趣的火箭图阐释了人工智能的实现方法:
如果把人工智能比作火箭的话,那么有两个核心元素作为火箭助推器,即:大数据作为燃料,深入学习作为引擎。这两个核心造就了人工智能火箭的助推力。
人工智能分为强人工智能与弱人工智能。 许多计算机领域的科学家都对强人工智能提出过质疑,比如“铁钉灭世”的猜想,认为人工智能达到一定的高度之后,机器人最终会将指令的执行带入极端从而想消灭人类。但是顾帅认为,现阶段的科学发展还离强人工智能很远,实现弱人工智能依然能够为人类带来无限的方便与可能。
实现弱人工智能(从底往上)的三个核心是:
-
感知(Perception):通过多维传感器搜集人的生理信息和环境的物理信息
-
理解(Understanding):即深度学习(Deep Neuronal Network + Deep Learning)
-
决定(Decision):比如推荐服务
深度学习之所以有很大前景来源于以下几个优势:
-
具有来自于人脑的运算机制(inspiration by brain)
-
适合大数据运算(suitable for big data)
-
端到端的学习体(end-to-end learning)
-
具有丰富的建模语言(a rich modeling language)
这张图体现了深度学习如何影响到未来互联网。
1. 网页的索引知识,搜索,广告,预测
2. 人的维度:图形,声音 (百度没有使用科大讯飞的接口,而是自主开发,性能和识别率都非常好)
3. 实体世界:感知到3D,VR,增强现实。
百度搜索在这个方面的进步是可以通过语音的输入来筛选出重要的语义,另一个很酷炫的功能是拥有图像搜索的入口并且能够识别图像进行相关信息的推介。另一个有关深度学习的产品是一款叫“脸优”的APP,其技术核心是生物学习的本地化以及在手机端完成实时把2D图片生成3D图片,并且是只有200k的实时3D化渲染。
-
Baidu Eye
看过电影《她》的同学是否对人工智能感触颇深呢?其实中文把Rotics翻译成机器人不妥,而是一种辅助人拓宽能力的设备。比如Baidu Eye实现了一款产品类似于一个戴在耳朵上的帮助人类的第三只眼。去年9月,百度在世界大会展示了 Baidu Eye。这款被外界类比Google Glass 的产品,新的搜索入口,是 “对人工智能和人机交互终极形态的技术探索”,是连接所有计算设备的大脑和终极人机接口。
很多人拿这个跟Google Glass对比,但其实还是很不一样的。戴上Google Glass眼球会翻白眼,这是很不好的体验。可以通过其 图像识别 技术实时地为用户对目中所见进行解释答疑或者商品推介,可以在博物馆和商场中使用。比如在商场中给女朋友推荐花,商家也知道了你的停留时间和购物习惯。
这是Baidu Eye的原理图
最好的人机交互是让人意识不到人机交互的存在,我们正朝着这个目标不断演进——BaiduEye。
Baidu Eye 背后核心能力来自百度大脑。百度希望将百度大脑核心能力通过视听说多维度能力创新实践落地,为公司连接人、数据与服务和 O2O 战略意义带来实质性价值。
探讨BaiduEye 进入医疗领域的可行性,比如通过 Baidu Eye 进行手术室直播和远程直播,帮助医生远程问诊,最终帮助医疗体系实现分级问诊,合理疏导患者。Baidu Eye有图像识别、语音识别的功能,随着技术成熟度提升和迭代,也许还能有机会切入电子档案这个领域。
-
DuLight
给盲人看世界的窗口。
一款可穿戴设备, 这款设备是用来帮助盲人和视力障碍者导航的,叫做Dulight,它可以像蓝牙耳机一样挂在耳朵上,能够捕捉任何面前的东西,然后传输到图像识别系统中进行确认。
识别的效果。 把Dulight指向椅子和盆景,Dulight发声说:“识别中,轻塑料椅,识别中,绿色盆景。”当他把Dulight指向我的时候,Dulight发声说:“这个男人在笑,大约30岁。”Dulight能记住那个人的名字,并在以后认出那个人。微软研究院也做这个类似盲人眼镜。
-
黑科技 产品
中国物流太方便了,比如送菜上门,新鲜蔬果半小时就到家门口。如果这样,智能冰箱还需要吗?
黑百度的梗
互联网智能优化的外卖:百度外卖可以实现精准的去单时间和去单分配,通过算法和经验数据计算出不同时段建议参观准备的食材,并且能够实时计算并且增加指令信息给送外卖的员工。这样导致外卖小哥觉得自己像个执行指令的机器人,连做人的尊严都没了,是不是可以脑补一下机器人送外卖就在不久的将来了呢?
Uber也使用这个智能系统在中国落地,调配各种数据源,比如哪里有球赛,天气,新闻。
-
Baidu Bike
达芬奇的草稿
Google在愚人节有个无人自行车的视频,而百度与捷安特合作的 DuBike 城市自行车,希望在不破坏骑行核心体验的基础上,让骑行能够更自然地连接社交、周边服务。
Dubike 本身有导航功能,能实时定位坐标,确定你的具体位置,连接服务最自然。你到了哪个商圈、商家,它都 “心知肚明”。能够根据驾驶者的地理位置、城市路况及环境质量、骑行习惯和个性需求等因素综合分析,自动规划定制路径。IDL 未来会把这套数据服务平台开放出来,平台化、接口化的方式开放给所有的低速交通工具使用,给他们安上了一颗百度的 “智能大脑”。
-
无人驾驶
(这一部分PPT是手机拍摄,不是高清)进入2016年,百度正在重新聚焦下一步的方向:自动驾驶事业部。3月,百度在媒体沟通会上表示会巨额投资无人驾驶汽车。此外,百度要在未来3-5年内,将激光雷达的价格从70万降到2至3万,从而实现无人车3年商用5年量产的目标。
无人驾驶汽车的成功涉及高精地图、实时定位以及障碍物检测等多项技术,而这些技术都离不开光学雷达(LiDAR)。 其实已经研发了3年,跟宝马合作的一款无人车。在乌镇的互联网大会上,习大大点赞,作为政治任务来完成,他笑谈如果没有做好,就不是股价跌10个点的问题了。极客公园的创始人体验了一下百度无人车吓尿了,说是坐过无人车中最激进的,最高时速100公里/h。提到跟传统车软件相比,有恐怖的1300倍的代码量。
最大的愿景就是安全,人开车是很危险的,人的反应时间是1.2秒,就50米的刹车距离,而计算机电控0.2s,刹车距离6.7米。
经济上也是极大节省了成本。
自动驾驶的8大难点,这必须要跟车厂合作。 无人驾驶技术是多个技术的集成,包括了传感器、定位与深度学习、高精地图、路径规划、障碍物检测与规避、机械控制、系统集成与优化、能耗与散热管理。
下图显示了无人车的通用系统架构,系统的感知端由不同的传感器组成,其中GPS用于定位,光学雷达(Light Detection And Ranging,简称 LiDAR)用于定位以及障碍物检测,照相机用于基于深度学习的物体识别以及定位辅助。
-
无人车通用系统架构
自动驾驶的5个进阶,特定功能辅助:自动巡航,自动泊车,固定路段有限条件自动驾驶,完全自动驾驶。
两大派系:特斯拉,mobileeye,雷达传感
Google,百度:使用激光雷达(厘米级别定位),高精度雷达。
Google的 自动驾驶汽车 很萌很玩具
Google的自动驾驶汽车,可以称为“全自动驾驶汽车”,这种汽车没有方形盘,没有刹车,全部靠感应器和软件自动驾驶,Google宣称它非常安全。
借助感应器等部件实现对自我和周围环境的认知
特斯拉的“半自动驾驶”更倾向于“有人监督的自动驾驶技术”,就像是飞机的“Autopilot”功能一样,而不是把自己完全交给感应器和软件,并且随时可以切换到人工驾驶模式。Tesla辅助驾驶使用的硬件包括:
-
前置摄像头:识别车道,实现车道保持。
-
前置雷达:加上摄像头追踪前车,控制车速。
-
12个超声波传感器:感应车辆周围和驾驶员盲区内车辆和障碍物,实现碰撞回避。
车辆识别精度百度拿到第一名89%。
-
趋势:汽车新能源化,制造门槛降低
-
汽车智能化:自动驾驶大势所趋
-
汽车共享化:高效淘汰低能
| 未来展望
尽管无人驾驶技术渐趋成熟,但激光雷达始终是一个绕不过去的坎。纯视觉与GPS/IMU的定位以及避障方案虽然价格低,却还不成熟,很难应用到室外场景中;但同时激光雷达价格高居不下,当务之急就是快速把系统成本大幅降低。
其中一个较有希望的方法是使用较低价的激光雷达,虽然会损失一些精确度,但可以使用其它的低价传感器与激光雷达做信息混合,补偿算法得到车辆的位置。 通过更好的算法去弥补硬件传感器的不足,无人车近期的发展方向。而高精度激光雷达的价格由于市场需求大增也将会在未来的一两年内出现降幅,为无人车的进一步普及铺路。
-
属于我们这个时代的 NUI
顾帅最后展望了为实现一个“智能+”的时代,我们需要实现万物互联以搜集充分的有效数据,然后通过 神经网络 的AI 算法实现对数据的结构化,最后实现自然人际交互。
可以展望在不久的将来,我们可以实现一个全智能化的生活工作环境,互相连接配合的物品可以智能地提供人类需要的服务,如生活助理,秘书一样地存在来便利人类的生活。
互联网的飞速发展将大大的提升人类的生活体验并且重塑人类的生活方式。经历了比尔盖茨的GUI时代, 乔布斯 的TUI时代,我们可以期待NUI时代!
最后附上今年4月百度硅谷研究院一位重要人物加盟,百度首席科学家吴恩达喜出望外在FB上宣布这个消息。
刚满30岁的楼天城是目前百度最年轻的T10工程师,他将与百度首席科学家吴恩达一起,全面参与无人车的技术研发。