菲尔兹奖得主芒福德为三维人脸识别和配准献上神助攻
三维人脸曲面研究一直是计算机视觉的基本问题之一。
撰文
顾险峰 (纽约州立大学石溪分校计算机系终身教授,清华大学丘成桐数学科学中心访问教授)
通常情况下,对于人类经过生物进化而习得的先天能力,机器学习可以胜任或者超过人类;对于人类经过科学积累而建立的抽象理论体系,机器学习目前依然无法和人类匹敌。三维人脸识别和三维人脸曲面配准这两个计算机视觉领域的经典问题,就给出了这样的例子。
人脸识别问题是给定一张人脸曲面,判定此人的身份;三维人脸曲面 配准 问题是给定两张人脸曲面,在人脸间找出点点对应关系,也就是求出它们之间的一个光滑双射(微分同胚)。三维人脸曲面 配准 的技术更为精细,它要求给出逐点对应,特征点对齐,全局某种形状畸变最小,因而既考虑局部信息,又牵扯整体几何。相对于基于图像视频的人脸识别,三维人脸识别对于光照条件的变化、不同表情的变换、化妆方式的变化、头部姿态的变化更加鲁棒,识别性能有所提升。三维人脸识别可以用监督学习达到比人类更为精准的地步。但是,对于三维人脸曲面 配准 问题,目前机器学习的方法无法直接奏效。首先,人类对于两张人脸曲面间的特征点和它们之间的对应关系,具有良好的直觉,可以毫不费力地标注出来;但是对于曲面间的映射,或者稠密点之间的对应关系,并没有明确的直觉,手工标注非常困难。因此,数据准备工作几乎无法实现。相反地, 微分几何方法为曲面间的 配准 问题提供了强有力的模型,特别是菲尔兹奖得主、代数几何泰斗、计算机视觉大师芒福德(David Mumford)早期的研究领域――模空间――非常适用于这一问题的研究 。
芒福德当年在哈佛上本科的时候,在扎里斯基(Zaraski)的代数几何课上,产生了奇思妙想,最终催生了他得菲尔兹奖的工作。但这个想法不太容易解释,即便是初浅地描述也非常抽象。给定一张人脸曲面,我们通常只考虑皮肤构成的部分,去除眼睛和嘴的内部,同时将解剖意义下的特征点(例如眼角、嘴角、鼻尖)标注出来。因此人脸曲面实际上是带边界和特征点的拓扑复杂的曲面。给定两张这样的曲面,给定边界之间和特征点之间的对应关系,则我们所求的映射应该满足这些预定的对应关系。数学上,这意味着我们固定了曲面间映射的同伦类。固定一张拓扑曲面 ,考虑曲面上所有的黎曼度量 。两个度量 , 被称为是共形等价的,如果存在一个保角的微分同胚 ,数学上这意味着存在一个标量函数 : ,使得微分同胚诱导的拉回度量和初始度量之间满足等式 。图1给出了人脸曲面到平面圆盘之间的一个保角变换,保角变换亦被称为是共形变换。两个度量彼此等价,被记为 ,度量 的共形等价类被记为 。那么,曲面 上所有黎曼度量的共形等价类构成的空间被称为是曲面 的模空间(Moduli Space)。
图1. 曲面间的保角映射:三维曲面上任意画两条相交曲线,映到平面上后,平面曲线的交角等于原来三维曲面上曲线的交角。
图2. 人脸表情变换不是保角变换。
一般情况下,人脸表情变化会带来黎曼度量的变化,这种变化不是保角变换。图2给出了一个实例。我们将带边界的人脸曲面保角地映到平面的多孔环带上,多孔环带的内圆半径和圆心的构型是曲面的共形不变量。两张曲面的共形不变量不同,因此不存在共形变换。因此,这两张脸在模空间中代表不同的点。模空间的定义具有两级抽象,首先将黎曼度量分成共形等价类,这是一级抽象;然后,所有的共形等价类构成了模空间,这是第二级抽象。直观而言,模空间涵盖了所有可能的形状,其本身是带有奇异点的黎曼流形,存在黎曼度量,模空间中任意两点之间可以定义距离,也可以定义测地线。换言之,任意两张带度量的人脸曲面可以被视作是模空间中的两个点,可以用模空间的度量测量它们的相似程度;也可以计算它们之间在模空间内的测地线,就是它们之间某种微分同胚,使得角度畸变最小。
图3. 带有特征点的两张人脸
图4. 带有特征点的两张人脸之间,角度畸变最小的微分同胚,也可被视作是模空间中的测地线
图3、图4解释了这一观点。图3中,给定了两张人脸曲面,上面标注了特征点。两张曲面之间不存在保持特征点间对应关系的保角变换,但是存在唯一的一个微分同胚,将角度畸变降到最小,如图4所示,即所谓的泰西米勒映射(Teichmuller Map)。这一映射将源曲面上的无穷小圆映到目标曲面上的无穷小椭圆,所有的椭圆具有相同的偏心率。整张曲面上,最大的偏心率可以作为角度畸变的一种量度。在所有可能的微分同胚中,泰西米勒映射使得这种角度畸变达到最小。由此,泰西米勒映射给出了模空间中的测地距离和测地线。
图5. Beltrami微分的几何解释:无穷小椭圆的偏心率和主轴方向
一般的微分同胚,将无穷小圆映到无穷小椭圆,局部上每一点处的椭圆偏心率和主轴方向定义了一个复数值的函数,即所谓的Beltrami系数;在流形上,在各个局部坐标系下定义的Beltrami系数给出了整体的Beltrami微分,记为 。粗略而言,微分同胚和Beltrami微分彼此一一对应,我们考察微分同胚等价于考察Beltrami微分。在模空间的任意一点(代表一族共形等价的曲面),每一个Beltrami微分都给出了曲面的形变,因此,曲面上所有可能的Beltrami微分定义了模空间在该点处的切空间。
曲面的一个叶状结构(foliation)就是将曲面分解成一族曲线,每一条曲线被称为是一片叶子(leaf)。叶子没有自相交,彼此也不相交。曲面上的任意一个叶状结构都可以用一个所谓的全纯二次微分(holomorpic quadratic differential)来描述。曲面上的所有全纯二次微分构成一个线性空间,如图6所示。
图6. 曲面上的叶状结构。前两个叶状结构之和等于底3个叶状结构。
给定模空间中的一个点 和一个Belrami微分 ,那么对于一切 , 决定了一个微分同胚 , 将点 映射到模空间中的另外一点 。由此,我们得到了模空间中的一条曲线 , 。这条曲线在0点处的切向量,亦即曲面 的形变“趋势”,由Belrami微分 对曲面 上全纯二次微分的作用所决定。这种说法比较抽象,我们下面给出一个实例来详细解释这种说法的直白意义。
假定我们给定一张人脸曲面, 脸上我们用机器学习方法求得了特征点 ,如图3所示。我们在每个特征点处戳一个小洞,得到了带有空洞的曲面。带空洞的曲面上有全纯二次微分, ,它们构成了所有全纯二次微分空间的一个基底。更进一步,对每一个特征点 我们可以选取一个相应的全纯二次微分 。给定一个Beltrami微分, 对应的微分同胚是 , 那么经过重整化后(normalization),特征点位置的变化率为:
。
对此,老顾师兄刘克峰给出了精辟的概括: 全纯二次微分空间是模空间的余切空间 。一针见血,一语中的。
通过以上讨论可见,模空间理论给出了三维人脸曲面 配准 问题的理论模型,或者更为宽泛的求解一般大形变曲面间的微分同胚问题的理论模型。其形状空间,这一空间的黎曼度量,映射空间的切空间、余切空间、测地距离、测地线,等黎曼几何概念明晰,最优映射的存在性和唯一性具有理论保证。迄今为止,我们只应用到了模空间的黎曼几何性质。其实, 芒福德的最令人惊异的贡献在于:他看出了模空间实际上是一个代数流形,模空间可以表示成多项式方程组的零点集合。 模空间的代数性质会为曲面 配准 问题带来哪些更为深刻的指导作用,这是一个饶有兴味的未知问题。
根据老顾的师兄、数届国际计算机视觉和模式识别大会(CVPR)主席、加州大学洛杉矶分校统计学和计算机科学系的朱松纯教授提出的计算机视觉科研范式:模型、算法和实现,我们用模空间的黎曼几何层面给出了曲面 配准 问题的理论模型。从算法角度而言,将抽象的纯粹数学理论转换成离散的算法,这本身就非常具有挑战性。经过多年的努力,老顾与其众多合作者们,特别雷诺铭教授、曾薇教授、Mayank Goswami教授在丘成桐先生的指导下系统地发展了计算拟共形几何方法,提出了拟共形映射,泰西米勒映射的算法 [1] [2] [3] ; 近期和雷娜教授发展了全纯二次微分和曲面叶状结构的算法,郑晓朋博士起到了关键的作用 [4] 。在医学方面,三维人脸配准对于牙齿整形、颅面整形、美容手术、皮肤黑色素瘤预防诊治等领域都会有所帮助;在动漫动画领域,三维人脸配准对于表情捕捉、特效制作等极具潜力。
虽然三维人脸配准问题的近期解决方案依赖于微分几何方法,但是从长远来看,机器学习的方法不可或缺。模空间理论给出了所有可能出现的曲面形状,和所有可能的微分同胚。但是所有真实的人脸,和真正能够物理上实现的表情变化应该只是其中的极小部分,有可能是一个子流形。我们需要一个定义在模空间上的概率密度来刻画物理可实现的人脸曲面和人类表情,更为精细地,我们需要得到正常人脸表情和反常表情(例如自闭症患者的表情)的概率描述。这些概率密度的获取一方面依赖于物理建模和力学模拟,但是更为切实可行的方法是应用机器学习来获取。
综上所述,我们看到对于三维人脸曲面识别、 配准 、表情分析而言,微分几何方法和机器学习方法,各有千秋,相辅相成!
后记
2016年是深度学习方法迅猛发展的一年,更是资本全面介入这个学术领域的一年。机器学习方法正在颠覆传统计算机视觉领域的科研范式,取而代之的是一种基于海量数据,统计算法和计算资源的暴力范式。在这种暴风骤雨般的革命狂潮下,许多经典计算机视觉问题都已经接近解决,至少是突飞猛进,渐渐逼近了商业实用的成熟程度。
学术成果的迭代周期从数年缩短至数周,传统的学术会议和学术期刊的审稿周期远远长于迭代周期,因此绝大多数论文都提交到无审稿的公开archive。因为学术界的计算资源和数据资源匮乏,许多新颖的神经网络模型的验证工作直接交给工业界的巨无霸公司,例如FaceBook,来直接验证。学术空气中充满了躁动亢奋的荷尔蒙气息,数十年的学术经验的积累让位于初出茅庐的骇客精神,理论修养的积淀难敌参数调节的技巧。机器学习的狂潮几乎席卷了几乎所有年轻学子的心灵,很少有人会愿意花费数年学习微分几何的理论,而是热衷于短期就可以掌握机器学习的技能,从而早日投身到工业界的人工智能革命之中。
与全民狂热的氛围相反,老顾身边的同事和朋友们表达了各自的隐忧。老顾的同事Dimistris Samaras教授说道:“现在的孩子们上来就学机器学习,遇到任何问题就套用机器学习的范式:准备数据、训练网络、调整参数。他们学会了机器学习,同时头脑被僵化,用机器的蛮力代替了智力的分析。”老顾的另一位同事,医学图像领域的大师Allen Tanenbaum教授说:“在医学领域,精准医疗的宗旨是同样的病症,针对不同的病人的遗传密码和后天发展情况,要用不同的药物治疗。基于大数据统计的机器学习方法无法反映不同病人的特质,无法揭示药物疗效的因果律,因此机器学习方法近期内在医疗领域难以被广泛接受并应用。”医学图像领域的知名学者王雅琳教授这学期教授计算共形几何,他向老顾抱怨道:“做机器学习的学生压根就不想花功夫学习几何,下功夫的也很难短时间学会。这实在是一个困境,这么难学的东西,学会之后也很难进一步发展新的成果,所以我的硕士生全都要跟我学机器学习。”
老顾的师兄朱松纯教授在前不久发布的檄文《正本清源:初探计算机视觉的三个源头,兼谈人工智能》中重新强调了传统计算机视觉的研究范式:模型、算法和实现。朱教授是计算机视觉大师芒福德的高足,在计算机视觉领域,更是继承了芒福德的衣钵。当年,老顾初到哈佛的岁月,同在芒福德的门下,朱师兄给予了无微不至的关怀和照顾,在计算机视觉的学术方面,更是老顾的启蒙人。朱师兄对于视觉有着狂热的热爱,和成熟的哲学体系,并且投射成卓有成效的计算体系。
芒福德是代数几何泰斗,菲尔兹奖得主,他在代数几何领域建立的丰功伟绩令人叹为观止。芒福德思想的深刻和广博,人格的正直和高尚,令老顾由衷地觉得他是一位真正的英国贵族。芒福德高大健硕,面目俊朗,举止优雅,绅士体贴,无一不体现苏格兰贵族的风范。特别是他对功名利禄的藐视,对几何真理和计算机视觉真理的追求,令周围的同事和学生都无比钦佩。芒福德在哈佛大学数十年,每年都将全部数十万的工资全部捐回数学系,分文不取。芒福德非常欣赏一位年轻教授在计算机视觉方面的研究,认为其学术水平到达哈佛终身教授的水平。但是在那个年代,哈佛大学从不会提拔年轻教授成为终身教授。芒福德为此压上身家性命,公开宣称如若哈佛拒绝授予终身教授的职位给那位年轻人,他就当即辞职离开哈佛。最终,刻板保守的哈佛依然拒绝了那位年轻人,芒福德毅然决然地离开了哈佛,加入到布朗大学。芒福德的侠肝义胆深深感动了数学领域和计算机视觉领域的学者们。临行前,芒福德和老顾深谈数次,朱师兄也和老顾谈了他在计算机视觉研究方面雄伟蓝图。最终芒福德将老顾推荐给丘成桐先生学习微分几何。数十年后,朱师兄多用统计方法研究计算机视觉,老顾则偏好非主流的微分几何方法。
参考资料
[1] WeiZeng, Xianfeng Gu, Ricci Flow for Shape Analysis and Surface Registration -
Theories, Algorithms and Applications, Series Springer Briefs in Mathematics, Publisher: Springer New York, ISBN978-1-4614-8780-7, 2013.
[2] Lok MingLui, Xianfeng Gu, Shing-Tung Yau: Convergence of an iterative algorithm for Teichmuler maps via harmonic energy optimization. Math. Comput. 84(296),2823-2842, (2015)
[3] Mayank Goswami, Xianfeng Gu, Vamsi PrithamPingali and Gaurish Telang, Computing Teichmuller maps between polygons, Foundations of Computational Mathematics, 2015.
[4] Na Lei, Xiaopeng Zheng, Jian Jiang, Yu-Yao Lin and Xianfeng Gu, Quadrilateral andHexahedral Mesh Generation Based on Surface Foliation Theory, Computer Methods
in Applied Mechanics and Engineering, In Press, 2016.
延伸阅读
① VR/AR背后的弄潮儿(1):微分几何之逼近理论
② VR/AR背后的弄潮儿(2):微分几何之数据压缩理论
③ VR/AR背后的弄潮儿(3):微分几何之曲面映射理论
④ 深度神经网络会产生人这样的智能吗? | 人工智能专栏
投稿、授权等请联系: iscientists@126.com
您可回复"年份+月份"(如201510),获取指定年月文章,或返回主页点击子菜单获取或搜索往期文章。
赛先生 由百人传媒投资和创办, 文小刚、刘克峰、颜宁 三位国际著名科学家担任主编,告诉你正在发生的科学。 上帝忘了给我们翅膀,于是,科学家带领我们飞翔。
微信号: iscientists
▲
长按图片识别二维码关注我们
点击“ 阅读原文 ”购买科学好书!