2.5个视角解读商汤科技@GPU技术大会
当你对着电视机喊“快进到30分钟”,电视可以立即响应,因为时间轴可以告诉电视30分钟在哪里;但是假如来一句“给我放最浪漫的那段”,电视机也能听懂,会是一种怎样的体验?
这不是畅想未来,而是已经实现的场景。透过商汤科技CEO徐立博士在今年GPU技术大会(GTC 2017)上的演讲,就会发现这其中的奥妙,都在“AI”两个字母当中。
正如当年PC刚刚发明时,很多人并不知道它能拿来做什么一样,谈到AI,大众目前也只能联想到类似于“终结者”的全能机器人。对于AI如何潜移默化地改变我们的生活,只有那些真正的实践者,才能向你解答。从此次GPU大会来看,商汤科技,正是最好的回答者之一,他的答案,从其展台展示、徐立博士的演讲、黄仁勋的演讲中这1+1+0.5个视角中,便可一窥究竟。
展台:商汤科技AI的“实践成果”
AI不仅和我们每一个人有关,也和地球上的每一座城市息息相关。在GPU技术大会,商汤科技的展区与英伟达相邻,在这里,你可以感受到商汤科技基于GPU的AI技术的最新“实践成果”,既有生动的一面,也有浩瀚的一面。
说起生动,不禁想到上周国际电子商情首席分析师孙昌旭的一条微博,说一个人要办临时护照,结果找不到之前用手机拍摄的护照页和签证页的照片,其实这张照片中的人脸早已被小米MIUI“面孔相册”捕获,当他打开相册,一下就找到了这两页的照片。而MIUI所运用的人脸技术的秘密,正是来自商汤科技的SensePhoto全面手机影像处理解决方案。
(SensePhoto不仅能对相册进行智能化管理,也为手机拍照功能带来众多专业化的提升——背景虚化、先拍照后对焦、暗光拍照、光学变焦等)
SensePhoto不仅可以提供分类相册,其人像算法,还能为自拍带来可以媲美单反相机搭配大光圈镜头的背景虚化功能,比如OPPO手机的自拍背景虚化。但大多数人在自拍时,并不会意识到“人工智能”的存在。去年曾跃居AppStore排行榜第一的Faceu同样如此,那些贴画为什么能跟着你的脸动加各种特效,也是因为使用了商汤科技SenseAR的人脸关键点检测技术。
(商汤科技的SenseAR技术,让硅谷小伙伴们玩的不亦乐乎,纷纷表示:“so cool, even more fun than SnapChat.”)
显然,生动不需要高成本,那些曾经需要借助专门硬件才能实现的功能,未来或许全部可以直接通过算法实现,这便是AI的精妙之处,其深度学习能够不断累加经验,而且这种速度远快于人类,就像随着你学会的本领越来越多,在很多事情上也就不再需要他人的帮助。
此次商汤首次展示的SensePose便是如此。它能够在普通的网络摄像头上,实现人体动作捕捉,而以往这些功能都需要通过双摄像头或额外的传感器来实现。可以想象,SensePose将降低动作捕捉设备的应用门槛,或许很快,虚拟试衣间,虚拟穿戴等增强现实体验就将遍地开花。
(商汤科技SensePose单目摄像头实现人体动作估计解决方案,让人类更高效的实现与机器对话,将成为人机交互、虚拟穿戴、虚拟试衣等应用的决定性技术)
(英伟达创始人、全球CEO黄仁勋也来到商汤科技展台,观看商汤科技展示的SensePose技术,徐立博士亲自为“老黄”演示这一技术)
说起浩瀚,也许你最先想到的是夜空中的繁星。试想在不看星图的情况下,将如何得知正在闪烁的星星叫什么名字呢?这就是商汤科技应用于公共安全领域的SenseFace所做的事情,只不过星星变成了一张张人脸。
SenseFace可以从公共场所的监控视频中,扫描流动人群的每一张人脸,当可疑人物出现时,在不到半秒的时间内,就能锁定他的身份,并进行跟踪或做出实时预警。浩瀚的AI技术,帮助安防行业大大提升了分析和响应的效率。
(SenseFace视频监控中的大规模人脸识别技术,可在光照、角度、表情、遮挡、年龄变化等情况下保持超高的识别准确率,在千万级人员库中300ms内获得比对结果,让城市安防领域建设迅速取得突破)
在SenseFace的一旁,则是能够实现人、非机动车和机动车检测和跟踪的SenseVideo。借助来自于大数据的支持,它可以检测出行人的性别、年龄、衣服款式、颜色,是否背包、带帽、戴口罩等等;针对车辆则可以辨别颜色、车型、车牌,甚至车款。它不需要人工记录,便能够逐一记录街道上过往的行人车辆,因而打造数字化智能分析系统,这毫无疑问代表了未来智慧交通的发展方向。
(SenseVideo视频结构化系统是智慧城市建设的关键,其拥有行人检测、车辆检测、车辆分类等多种技术,为路面状况动态分析、车流密集地段识别、街面安全时段分析提供强大助力)
AI技术正在一点一滴地渗透我们的生活,AI实践者通过对我们生活细节的感知和把握,用AI突破传统,并将AI融入其中。AI引领的智慧未来,对我们个人、周围环境的影响,将逐渐从有形进化到无形。技术的最佳存在形式,就是感受不到技术的存在。
演讲:商汤科技AI的“未来视野”
商汤科技的展台,揭示了我们所能看到的AI应用方向,但对于真正的AI实践者而言,这还远远不够。徐立博士在2017 GPU技术大会上的演讲,虽然仍然围绕SenseVideo、SensePose等具体技术和产品展开,但仔细思考,就能感受到专家们对AI技术应用方式的理解。
(商汤科技联合创始人、CEO徐立博士演讲的核心观点之一:AI正在重构世界)
首先是SenseVideo,尽管机器可以看懂行人和车辆的属性,但想要进行检索,只能输入特定的语义标签。我们无法和机器像人一样用“语言”进行沟通。这就使得SenseVideo和自然语言处理(NLP)技术的结合,显得意义十足。
“他穿着黑色的人字拖,带有白色条纹的黑色短裤,短袖圆领衬衫,还背着一个黑色的背包”。这句话听起来,更像是警察对犯罪嫌疑人的描述,但很快,警察们就不需要再靠自己查找,他们直接将这句话输入到计算机,通过NLP提取目标信息,然后由机器视觉技术,在海量的视频中进行匹配,从而锁定嫌疑人的踪迹。
(视频结构化系统未来可以和自然语言处理技术相结合,以更加直观的语义描述,更便捷地找出符合特征的目标人物)
至于SensePose,徐立博士的举例,不禁让人感到强烈的“发散性”思维,你会惊呼AI技术还能这样混搭运用。
当我们想要观察两个人的关系时,可以从他们之间的动作和表情入手。两个人相拥时,可以描述为“Warm(温暖)”,两人手舞足蹈争吵时,可以描述为“Competitive(竞争)”。而将动作估计和人脸关系预测技术相结合,就可以实现这种关系特征的预测。那么这样的技术,该如何应用呢?
(动作估计技术未来可与人脸预测技术相结合,用于描述视频中人物关系或人物状态,实现视频内容的理解和分析,机器将懂得人类情感)
徐立博士给出的答案是——视频分析。他现场演示了一段日常生活场景中两人对话的视频。关系特征预测系统可以根据画面内容,实时分析两人是“Friendly(友好)”还是“Competitive(竞争)”,并形成描绘关系可能性的变化曲线。
一旦这项技术大规模应用于影视行业,将实现自动化的全影片内容属性分析。比如在《泰坦尼克号》中,分析romance(浪漫)的部分和dystopia(反乌托邦)的部分,就可以建立针对每一部电影影片的内容类型库。试想,当这项技术再结合语音识别和NLP后,用户就真的可以对着电视说“给我放最浪漫的那段”了。
(很难让人想到,人工智能让人类情感中最难以描述的“浪漫”也能用数据表达出来)
这也正是徐立将演讲主题定为“深度视频理解”的原因。所谓“深度”,并不仅仅是提高准确率,而是建立在准确率提升的基础上,将实现怎样的全新应用模式,同时又如何影响到用户生活的每一个点滴。
Keynote:AI的“无限机遇”
每一年GTC GPU技术大会的最大看点就是英伟达创始人、全球CEO黄仁勋的Keynote演讲。本次发布的Tesla V100,无疑再次将AI计算的性能提升了一个数量级,作为Volta GPU架构的首款产品,各领域通向AI的进程,又将再度加快一个等级。
(黄仁勋在Keynote中发布Tesla V100,全新引入的Tensor Core将大大提升AI计算性能)
性能永远是GPU发展的首要目标,如何利用GPU打造更生动、更浩瀚的AI应用场景,则是商汤科技等AI实践者们解决的问题。就像SensePose采用DGX-1进行了72小时的训练,便在单目摄像头上实现精准的定位结果。而SenseFace和SenseVideo能够在Jetson TX1上实现双路高清视频处理,也全然得益于商汤算法和最新GPU技术的紧密集合。
(SensePose采用英伟达的DGX-1深度学习系统训练,仅需72小时就可达到我们所看到的精准动作估计效果)
未来有了Volta架构的加持,对商汤科技来说,其“深度视频”技术必然还将延伸到更多的方向。作为旁观者,我们可以轻松地说出无人驾驶、医疗影像等领域,但至于如何能够以我们毫无察觉的方式,潜移默化地进行渗透,还需要让商汤科技这样的顶尖的AI企业来回答。
(GTC 2017主办方 “AI计算公司” 英伟达展示区视频,展示了商汤科技智能视频产品,成为大会最受关注的亮点之一)
就好像商汤科技副总裁柳钢说的那样:科学家走出学术机构,进入产业界搞创业看似“不靠谱”,实际一起“打仗”才发现,科学家比任何人都清楚今天的人工智能技术肯定会带来一场世界级的“新工业革命”。