ResNet成阿尔法元核心技术 旷视孙剑详解Zero的伟大与局限
2017年10月19日,DeepMind团队发表了迄今最强版本的AlphaGo——AlphaGo Zero,其中一个重要模块是出自华人团队的深度残差网络ResNet。就此背景,新智元采访了深度残差网络ResNet作者之一,旷视 科技 Face++首席科学家孙剑博士。孙剑认为,AlphaGo Zero技术提升足够伟大,但在真实技术落地过程中还有着众多局限,并指出未来的主流深度学习技术还将会围绕大数据训练模式的方式展开。在采访中,孙剑还谈了计算机视觉远远没有被解决,“全世界的研究人员一起来做都不够”。
图: ResNet 作者之一、旷视科技Face++首席科学家孙剑博士
AlphaGo Zero的伟大与局限:两大核心要素实现极简算法,“无师自通”短期无法成为AI主流
“AlphaGo Zero的搜索过程简化了很多,例如把以前系统中的两个网络合并成一个网络,将深度残差网络的输入做最简化。”孙剑博士在谈到本次AlphaGo Zero的技术特点时说:“把19x19棋局图像直接送给神经网络,让神经网络看着棋盘做决策,这个非常简洁。”
孙剑表示,本次AlphaGo Zero的提升主要有两个核心要素,一个是启发式搜索,一个是深度残差神经网络,而这两者又实现了完美结合。其中,启发式搜索的思想非常朴素,是个针对问题设计的一个高级定制版蒙特卡洛数搜索算法;而深度残差神经网络则让简单的搜索算法极大地提升了效率。
深度残差神经网络(ResNet)在2015年由孙剑在微软领导的视觉团队率先提出,并在当年的ImageNet以及MS COCO两大学术竞赛中包揽五项冠军。ResNet一个重要的突破是实现了152层的网络深度,这让一些非常复杂的函数做映射时的效率与有效性得到了极大的提升。结合了ResNet的强大网络使AlphaGo Zero能够快速、准确地学习每一子的落子概率和对整个棋局进行判断。
“AlphaGo Zero的伟大之处是第一次让机器可以不通过任何棋谱,在只告诉规则的前提下,完全从随机开始,而且只在一台有TPU的单机上运行,不到3天就超越柯洁版的水平,最终成为围棋大师,这种无师自通的学习模式在AI整个发展上是具有里程碑意义的。”孙剑博士讲到AlphaGo Zero的技术意义时说。“但是,这种‘无师自通’在很多AI落地中也存在一些局限,因为严格讲,围棋规则和判定棋局输赢也是一种监督信号。因此,说人类无用,或者说机器可以自己产生认知,都没有准确地理解AlphaGo Zero。”
虽然在技术上令人惊艳,但在很多AI行业落地中,所谓的无师自通或者弱监督学习在短期还是无法成为主流。目前人工智能落地解决的很多事情,实际上都是在模拟人类的某一种技能,让机器应用这一技能去完成任务,而这需要海量的数据与更多的信号输入。以旷视Face++所擅长的人脸识别为例,人脸识别是人类特有的一种能力,与演化和后天习得有关,把这种能力输出给机器,就需要人的监督信号。所以,在今后很长一段时间内,监督学习依然是AI研究与AI 商业 化的主流方向。
在 创业 公司也做基础研究:如何做更好、更小的网络
对于这次ResNet被AlphaGo Zero论文引用,孙剑显然非常开心,还特意发了朋友圈。“这次应用在AlphaGo Zero中的ResNet残差神经网络,曾获得了CVPR2016的最佳论文奖,我也非常高兴这个技术可以应用在AlphaGo Zero系统中,当然ResNet并非我一人的功劳,它应当归功于团队的齐心之作和微软亚洲研究院开放的研究环境。目前,我在旷视科技(Face++)也正在打造这样的开放环境和原创精神。”
加入旷视以后,孙剑的研究和交流步伐也没有停下。他现在是旷视的首席科学家,同时也是旷视研究院的院长。虽然在采访中,“商业化”、“场景”、“落地”等非常“创业公司”的词常常出现在孙剑的论述中。但是,孙剑认为,在创业公司做研究和在大企业做研究实际并没有什么不同。“做研究很大的一个点就是,别人都往那边走的时候,你要看看别的方向做不做。”孙剑说。
这样做的一个结果,是旷视研究院在今年7月提出的ShuffleNet,ShuffleNet专门为了移动应用而生,在设备提供的计算量很小的时候也能快速响应。“卷积神经网络在设计空间有几个重要的维度,比如深度、卷积核个数,卷积核大小以及特征图,每一层的计算复杂度完全取决于这几个参数。”孙剑说:“我们目前得出的结论是:一个网络的真正性能,主要取决于其计算复杂度。如果新的网络结构没有大的变化,基本是计算力决定这个网络性能有多好。”
为了适应移动端的计算力,ShuffleNet在结构上继承了残差网络(ResNet)的设计思想,并在此基础上做出了一系列改进来提升模型的效率:首先,使用逐通道卷积替换原有的3x3卷积,降低卷积操作抽取空间特征的复杂度;将原先结构中前后两个1x1逐点卷积分组化,并在两层之间添加通道重排操作,进一步降低卷积运算的跨通道计算量。
图: ShuffleNet结构单元
ShuffleNet的主要吸引力在于,它使用的是任何人都可以在任何深度学习框架中轻松实现的简单、标准的操作(分组化卷积 + channel shuffling)。这对于许多应用都非常有用,事实证明,ShuffleNet发布后也得到同行的广泛应用。任何人都能用,而且易于使用、容易实施,能快速改进性能,这正是我们需要的研究,这样的研究在未来也将变得愈发重要。
除了像ShuffleNet这样通过网络设计的方式把计算量降下来,旷视在去年还发表了一项工作DoReFaNet,走的低精度的路子,把内部的数表示从浮点型,切换到定点或者更低位的表示,它可以是网络中的权重,也可以是网络中的特征。DoReFaNet训练中的梯度用Low-bits表示,“因为这个网络的权重、激活,以及梯度分别用一位、两位、以及四位来表示,所以我们研究院就叫这个网络DoReFa-Net。”
在今年的ICCV上,孙剑和旷视的研究人员Yihui He,以及ResNet的另一位作者张祥雨(以前也在微软亚洲研究院,现在和孙剑一起加盟旷视)合作,也有一篇论文发表,题为《加速极深神经网络的特征剪枝》(Channel Pruning for Accelerating Very Deep Neural Networks),继续在降低计算量的这一方向上发力。
剪枝(Pruning)这种方法,是在网络训练好以后,把里面冗余度最大的表示(Channel)去掉,重新训练网络,这样网络体积比以前小,而精度跟原来一样甚至更好;当然精度也有可能稍稍降低一点,但都在产品应用可以接受的范围内。
孙剑介绍说,现在的神经网络分支比较多且零碎,以前的剪枝方法已经不再适用。“我们这个方法第一次对新的现代深度神经网络做有效剪枝的方法,剪枝能够和低精度、ShuffleNet结合在一起,实现更小、更 经济 的网络。”
孙剑说,这是他们的一个基础研究,并没有局限于人脸或图像识别。作者在论文中写道,我们剪枝过的VGG-16通过5倍加速实现了最先进的结果,同时只增加了0.3%的误差。更重要的是,我们的方法能够加速ResNet,Xception等现代网络,分别只有1.4%、1.0%的精度损失,这是非常重要的。
旷视研究院在今年的CVPR有5篇文章发表,2018年的CVPR截稿时间是11月,大家也在积极准备。不过,旷视研究院对发文章的数量没有要求,“我从来不鼓励数量,我看的是质量,”孙剑说:“我以前写论文也没有特别多,但哪怕只有一篇文章,能够被用在像AlphaGo这样的系统上,那就有20倍的效果。”
创建旷视研究院,吃一碗面挖到实力人才
现在,孙剑到公司每天第一件事情,就是去网上看有没有新的、有意思的论文发表出来。旷视内部也有论文讨论小组,大家会把看到的论文或者自己的实现/复现发到群里面。孙剑每周都会跟每一个小组进行非常深入的研究,将他以前做研究的思路和方法分享给大家,供年轻人参考,营造积极创新的氛围。“我每天都会问自己,我应该做什么事情,让大家都有清晰的目标,让大家能够发挥自己的潜力去做这些事情。”孙剑说,而这就是他认为他自己最核心的任务。
“如果说我有KPI,那么我的KPI就是在旷视研究院把创新的环境做好,让年轻人在这里能够发挥最大的潜力来做创新,把这个组织越做越强,越做越大,”孙剑说:“而这样做附带的效果,就是公司的产品从研究中实现更强大的竞争力和生命力,公司整体也能得到更好的商业回报。”
现在,旷视研究院一共有80多人,分布在北京、西雅图、南京等城市,目前还有至少2个分部正在筹建中。孙剑说,旷视研究院还将继续扩大,“随着公司的发展成比例扩大”。对于人才选择,孙剑给出了几个标准:首先,数学一般好就行,其次,编程能力要很好,最后,潜力要很大。孙剑解释说,深度学习现在还是一个实验性的科学,很多的结论都是从实验中得来,因此需要快速做出东西来迭代,这对编程能力提出了很高要求,而要能够很好地运行系统,数学里线性代数学很好就可以了。
旷视研究院现在有基本任务组(分类、检测、图像分割、视频分析)、硬件组、平台组、引擎组,在第二轮面试的时候都会与孙剑直接会面。除了(校园)招聘,挖掘实力人才加盟也是旷视的一条道路,而这里孙剑本人的名望、实力和影响力无疑也是主要的吸引因素。最典型的例子,就是孙剑邀请到前Adobe首席科学家王珏,后者于今年5月加盟旷视,带领旷视在西雅图的研究院。
图:旷视Face++西雅图研究院主任 王珏博士
“我跟王珏博士认识了很多年,每次开会都会遇到,我们非常了解彼此的工作,我非常欣赏王珏博士的工作——PhotoShop里好几个非常创新的功能都是出自王珏之手,他也发表了很多高质量的SIGGRAPH论文,他的风格其实跟我很类似,我们彼此都很认可。”孙剑说。
王珏博士在Adobe工作了9年,2016年萌生寻找新环境继续挑战自己的想法。当时,王珏博士收到了包括谷歌、Facebook、腾讯、阿里等许多公司的邀请。最终成功招揽到他的是旷视。“我去找他,他非常爽快就答应了。”孙剑笑着说:“我就请他吃了碗面。”
计算机视觉问题远远没有被解决,投入多少人力都不够
对于人脸识别,孙剑认为正脸光照好的情况下,计算机已经超越人类,现在的问题是解决在极端情况下的用例,包括静态和动态,包括光照、角度、化妆、发型……最终,人脸识别其实是识别人的问题,那么就要做到从背影也能识别出你是谁。这也是人工智能解决小样本学习、抽象和自适应能力的一个核心问题。
在研究院的各种方向中,孙剑还特别提到了旷视自己原创的深度学习引擎MegBrain,它早于TensorFlow开发,相当于旷视内部的TensorFlow,也是创业公司中唯一自我研发并全员使用的深度学习引擎。孙剑说,旷视对于计算引擎的演进非常重视,现在MegBrain已经开发到7.0、8.0的版本。“用了MegBrain,大家都不想再用其他引擎”,而拥有自己的原创引擎,大幅加速了旷视自己的产品创新和竞争力。
现在旷视的研究氛围很自由,但领域十分聚焦,也即图像和视频理解,关注其中的文字、人物、车辆,对应旷视的产品和服务。这比起学术界和大公司研究院来似乎没有那么自由,但孙剑对此并不担心,因为“问题足够大”。
他认为人脸识别这个问题远远没有被解决,而视觉是人工智能里最重要的问题之一,人类有90%的信息都是从视觉进来的。视觉里的问题,“大到把全世界的视觉研究员都联合到一起,在我看来都是不够的。”孙剑说。
11月8日,在新智元AI World 2017世界人工智能大会上,孙剑将发表演讲,聚焦人脸识别等视觉前沿技术和问题,为我们带来计算机视觉最新技术和应用的精彩分享。