踏向 AIGC 竞技场，人像感知触发视觉「赛点」

雷锋网 • 1年前扫码分享

计算机视觉作为 AI 重要组成分支，通过模拟人类视觉系统赋予机器“看”和“认知”的能力，近年来在许多实际场景中大规模得以落地，是数字化时代产业变革的关键技术。

其中，以人像目标为最重要的研究内容，在金融认证、民生经济等核心场景中被广泛应用，但受人像内在多变因素及外部复杂环境的影响，也导致了人像目标感知理解模型在精度和效率上面临着极大的挑战。

5 月 6 日，2022 年度“吴文俊人工智能科学技术奖”颁奖典礼在北京召开，由清华大学研究员兴军亮，蚂蚁集团李建树、赵闻飙等人共同完成的“无约束人像目标智能感知与理解”成果获得“自然科学奖一等奖”，这意味着我国在解决 AI 视觉领域核心难题上取得了重大创新突破。

踏向 AIGC 竞技场，人像感知触发视觉「赛点」

该项成果提出了三大重要科学发现：

揭示人脸目标“不变性特征学习”的重要性

发现多维属性间普遍存在的互补性关联特征

构建“人脸-人体-人群”深度理解框架

其中，基于人脸目标“不变性特征学习”研究发现，研究团队开发并向行业开放的“无约束人脸识别平台”，在实现把人脸身份识别精度相对提升 74.9% 的同时，可将误报率降低 4 倍。

伴随着 AIGC、数字人等概念火爆，生成式图片、视频内容的出现，也势必对人像感知理解技术发展带来新的挑战。在保障用户隐私安全的前提下，基于人像智能感知与理解技术保障公共和个人信息安全，与产业结合推动视觉技术落地，也是以艾海舟教授、兴军亮研究员等为代表的清华大学计算机视觉科研团队，和蚂蚁集团安全团队将持续探索的方向。

计算机视觉的攻防战

2017 年的一天，在宁波这座南方城市的街头，出现了令人啼笑皆非的一幕。

交通警察部门在十字路口部署了使用人像感知技术的智能摄像头，以检测和识别乱穿马路的人，这些人的部分名字和面孔会被模糊地显示在公共屏幕上。路上的行人惊奇发现，显示屏上竟然出现了董明珠的身影，很快，一则关于“董明珠违规”的消息随即传遍了各大社交媒体。

但没过多久，宁波警方出来道歉并解释称，是由于 AI 识别的误判导致、并非董明珠本人，董明珠随后也在微博上回应道：“误拍是小事。平安重要。”虽然闹了个乌龙，但所幸没有造成巨大的影响。

今天，人像智能感知技术在实际场景中的应用十分广泛。进出机场、火车站等场所，仅需要面对机器刷个脸即可迅速完成安检程序；异地证件遗失，不用再专门回到归属地，线上预约通过人脸识别验证就能补办；日常购物或者金融理财产品交易，都只需要刷脸就能支付......

人像目标作为计算机视觉领域最为重要的研究内容，其智能感知理解理论方法，是推动以人为中心的机器智能技术体系构建和规模化应用的重要驱动力，在过去几十年的发展历程中共经历了三个重要的阶段。

上个世纪四五十年代，人像目标研究进入实验室，早期算法有基于几何特征算法、基于模板匹配算法和子空间算法等多种类型，以主成分分析和性判别分析为典型方法的子空间在人像技术中得以应用。

进入 2000 年，人像技术迈向第二个发展阶段、步入经典方法时代，Boosting 算法作为集成学习算法的主要代表，对人像感知技术算法提高分类正确率起到了重要作用。兴军亮也是在经典方法时代就开始从事与人脸人体相关的计算机视觉研究。2007 年 9 月，兴军亮进入清华大学计算机科学与技术系攻读博士，跟随艾海舟教授学习。

踏向 AIGC 竞技场，人像感知触发视觉「赛点」

兴军亮

2012 年深度学习浪潮开启，人像感知技术迎来划时代发展，基于卷积神经网络（CNN）的人像目标感知算法在识别效果和效率都有了大幅提升。在关注到这一新趋势后，兴军亮等项目研究团队很快参与其中，尝试用深度学习算法将以往人脸检测、人脸配准等系列研究问题重做，均取得了不错的效果。

在深度学习的推动下，以人像目标等为代表的计算机视觉技术开始走向落地，在实用场景中得以大规模应用。

但 AI 远非万能，人像智能感知技术受视角、光照、噪声等外部环境和性别、年龄、表情、姿态等内在因素的影响，模型在精度和效率等方面都存在一定的挑战。

而随着数字化时代的到来，在金融风控、自动驾驶等对安全性要求非常高的场景中，模型的失之毫厘、甚至会带来差之千里的危险后果，对人像感知与理解技术也提出了更高的要求。自 2007 年至今，研究团队长期致力于对人像感知理解技术探索，目前也已取得了突出的研究成果。

人像感知的三把斧

5月6日，2022 年度“吴文俊人工智能科学技术奖”颁奖，由兴军亮、李建树、赵闻飙等人完成的“无约束人像目标智能感知与理解”成果获得了“自然科学奖一等奖”。

受无约束内在致变要素和外在诱变因素变化影响，人像目标呈现出表观特征难建模、内蕴属性紧耦合等特点，因此导致感知结果出现关键信息不精确、属性认知不完备、语义理解不充分等问题。

该项成果针对如何实现精准感知并深度理解无约束人像目标难题，提出了三大重要科学发现。

踏向 AIGC 竞技场，人像感知触发视觉「赛点」

三个主要科学发现点及其相互之间的支撑关系

＞全视角变换空间下人像关键信息感知建模理论方法

人像的表观和形状是呈现其丰富语义的基础，是进行人像目标智能感知和理解的关键信息。

我们通常可以将人脸所在区域、通过人脸矩形框大小和位置划定以及人脸关键点网格、通过预定义关键点位置集合确定，并对上述信息进行表示和建模，来获取人脸目标的大小、位置及关键点信息。

在日常生活中获取人像目标感知理解关键信息时，往往会受到其他因素的影响，分别是内在致变因素和外部诱变因素；内在致变因素包括人的性别、年龄、表情、姿态等，外部诱变因素则包括拍摄的视角、距离远近、周围环境光照、拍摄照片或影像信息的分辨率等等，人脸目标在受到单因素或内外耦合变化因素的影响，都会导致模型获取关键信息发生变化。

举个例子，当一个人在户外阳光下仰头大笑、与他在昏暗的室内灯光里发呆，两个截然不同的环境和状态下所拍摄的照片，所获取的人像信息也完全不同，这种全视角空间下产生了复杂多变的视觉呈现，给人像目标关键信息感知的建模和分析带来了极大挑战。

基于这一问题，该项目研究团队提出了不变性特征和关系、对多变目标关键信息感知建模分析具有基础指导性。

将人脸变化分为左右摇摆、上下浮仰、平面内旋转三类，在训练数据中采集不同视角和数据，形成一个逐级由粗到细的树形结构，并把不断获取的精准特征、包括受外在变化和内在因素影响的关键信息放置到模型内，让模型得以从庞大的数据中学习出不变的因素，通过习得的人像不变性特征，让模型可以将人脸信息精准地感知出来。

在不变性特征学习的基础上，该研究还形成了汇聚解耦、分治、逐阶、分层等元操作的人像关键信息感知建模理论框架，也就是说，减少了多视角旋转、尺度、姿态变换对人脸大小和位置等关键信息检测的影响，从而提高人像目标关键信息获取的精度和效率。

＞复杂要素耦合空间下人像关联属性多任务感知方法

解决了如何获取关键信息的问题，第二步则是如何提高模型的结果准确性和效率的问题。

研究团队提出，通过引入一种模块化科学消融实验分析过程，深度剖析人像多属性关系解耦表征与多任务属性识别的模型方法，可构建一个高性能的人像多属性识别深度模型。

假设训练一个年龄感知模型，在以往的模型训练中，面对庞杂的多维度人像信息处理，仅模型前期对人像性别信息的判别上，往往就会花耗巨大的精力，影响模型的关注度，从而一定程度上影响了模型最终的判别效果。

为此，研究团队通过挖掘人脸表征内蕴属性和关联关系，发现了不同人像属性之间存在的三种典型依赖关系：互补性关联关系、相关性协同关系、以及因果性推理关系。

基于这三种典型关系，研究团队提出了联合多任务学习和对抗不变性学习的人像属性信息感知挖掘方法，在模型中引入对人像信息如年龄、性别等属性的多任务、分层学习方法。

相较于传统的感知算法，人像关联属性多任务感知方法不仅能有效节省重复训练多个模型的资源和精力，同时，不同属性特征间的典型依赖关系也能有效促进模型效果，实现了高精度可扩展的人像属性知识抽取，为人像目标深度理解提供核心算法技术支撑。

兴军亮告诉 AI 科技评论，“在没有太多数据、缺乏更大算力支撑的情况下，通过多个属性的判断算法，可将模型精度在有限数据的基础上实现迅速提升。”

此外，面对姿态、光照等多变因素给人像智能感知技术带来的挑战，研究团队还提出了通过对抗学习解耦各诱变因素、并驱动生成归一化人脸到标准约束空间后再统一识别的新思路，为人像智能感知与理解技术提供了处理各种诱变因素统一的模型框架，大幅度提高了模型综合性能和适用范围。

＞关键信息与关联属性驱动的人像深度感知理解

而随着人像智能感知与理解技术在产业和工程上的发展，无约束人像信息数据也呈现出大规模、多场景、多属性和多交互等特点。

实际应用场景下，如何解决精准感知关键信息、完备认知属性关系、动态跟踪定位等难题？基于上述两个科学发现成果，兴军亮、李建树等人提出了面向“人脸-人体-人群”分析的多层次多场景深度理解模型，其中包括了人脸多属性融合感知、人体细粒度深度解析和群体多场景目标跟踪三个关键技术。

踏向 AIGC 竞技场，人像感知触发视觉「赛点」

李建树

人脸多属性融合感知基于研究团队提出的一种超图学习模型，可自动学习不同层次属性组之间的复杂依赖关系，并对面部相关语义进行推理。例如在美妆场景中，模型通过对专业美妆、模特网站上人像妆容数据的采集和训练，可以为用户生成适合他们的妆容推荐。

人体细粒度深度解析技术指在对人体姿态的相关语义进行推理和理解。在日常场景中，人们的交往存在各式各样的身体语言，人体解析技术也面临着密切交互、姿态各异、严重遮挡等挑战，研究团队提出，将因果嵌套式对抗学习范式注入多人场景建模与多粒度多层次语义理解，同时隐式约束解析结果与人像身体结构的物理空间一致性。

面对不同场景下，单个或多个目标跟踪中存在的复杂表观变化和交互遮挡难题，研究团队在群体多场景目标跟踪技术中，以多周期时空观测模型为基础算法，统一在线、离线不同阶段的处理模式，建立了全局、局部关键人像信息的动态跟踪机制，提出了低帧率、剧烈运动、复杂交互、部分遮挡等系列场景下单、多目标跟踪的统一框架，具有高效精准鲁棒等特点。

经过十余年的攻坚，该研究团队在“人像智能感知与理解”技术探索中取得了显著性的研究进展，对计算机视觉领域发展，实现工业数字化、智能化具有重要意义。

学术成果的产出是最好的明证。这个项目已累计获得 CVPR、ACM Multimedia 等 5 次重要论文奖；在国内外顶级人像感知理解赛事中 10 次夺冠；8 篇代表作论文 Google-Scholar 总引用 3225 次、WOS 他引 650 次；并获得十余位马尔奖/傅京孙奖得主、百余位国内外院士等知名学者引用并正面评价。

相关算法也在欧姆龙、华为、蚂蚁等公司核心产品中得到应用，并产生规模化商业应用。其中，基于该项目核心能力沉淀的蚂蚁 e-KYC 可信身份认证方案，已在海外服务超过 1.2 亿东南亚用户。

数字化时代感知技术如何帮助人？

过去几年里，AI 在各行各业持续落地，技术变革推动数字化升级，也为产业发展带来新的想象力。

作为数字化浪潮中积极的参与者，蚂蚁集团基于人像关键信息检测定位、人像多任务属性关联识别和多层次关联感知模型等相关技术研制的蚂蚁可信人脸安全检测与识别系统，已经为支付宝超过 10 亿的用户、及其海外电子钱包上亿用户提供了身份认证服务。

其中，蚂蚁于 2017 年所研发的面向智能风控的安全科技商业化产品ZOLOZ（蚁盾），帮助合作伙伴解决数字化发展过程中的营销拓客、平台交易、产业协作等场景下的安全风险问题。

在疫情期间，为了拉动消费促进经济复苏，东南亚地区多个国家曾联手本地电子钱包发放政府津贴、企业工资、消费券，但由于东南亚地区部分国家并没有实行统一的身份证件，证件质量良莠不齐、伪造问题频发，起初，要识别证件的真实性成为亟待攻克的难题。

李建树所在的蚂蚁安全天玑实验室在人像感知与理解技术的基础上，重新训练算法，提高ZOLOZ的eKYC 识别真伪用户证件真实性的能力，当黑客为牟利使用假冒身份证和照片对用户身份账户进行攻击时，系统会对黑客的攻击和对抗进行捕捉，并协同用户此前交易信息对当次交易赋予风险标签，获得基于图像的风险纬度累积和结果。

借助ZOLOZ平台的 eKYC 功能，用户只需在手机上动动手指，在线完成注册和身份核验，通过资格审核后，就能快速领到补助金。

加上蚂蚁其他风控系统，从而帮助用户在更安全可信的环节下完成交易，为大规模无接触线上开户提供了安全保障，为发展不均衡地区的弱势群体用户接入互联网服务、享受互联网金融的便利性创造了条件。

目前，eKYC 已同国内外近 50 家企业达成合作，覆盖金融、保险、证券、信贷、电信、公共服务等领域，包括菲律宾 GCash、马来西亚 TnGD、印度尼西亚 Dana、泰国 TrueMoney、孟加拉国 bKash、韩国 KakaoPay 等电子钱包, 中国银行、招商银行、澳门工商银行、香港蚂蚁银行、印尼 Mandiri 银行，菲律宾 Citibank 等银行企业，助力其人脸身份验证平均时间从几天降至 3 分钟以内。

人工智能技术加速了社会智能化升级，伴随着元宇宙、AIGC、数字人等概念的火爆，AI 技术变革在提升生产效率、赋能产业的同时，也为社会带来了新的挑战。例如使用 AIGC 平台进行人脸伪造，模型在拿到图片后，如何判断是真实图像亦或是虚拟图像，是人像智能感知与识别技术下一步需要解决的难题。

李建树告诉 AI 科技评论，目前有关人像深度伪造检测技术的研究已在进行，通过对 AI 生成图像中的异常特征进行对抗性防御，可以在一定程度上提高模型对真实图像和伪造图片的鉴别能力。同时，相关监管部门也呼吁图像伪造能力提供商在伪造合成图片中增加暗水印或指纹等特殊标识，减少深度伪造技术对社会带来的危害。

人工智能行业迈进深水期，将 AI 推向与更多场景应用的对话中。以数据为驱动，未来，清华大学和蚂蚁集团的科研工作者们将继续探索人像智能感知理解技术在数字化时代新机遇、迎接新挑战，让 AI 作为产业发展的工具和引擎成为真正可能。

（雷峰网雷峰网 (公众号：雷峰网) ）

雷峰网原创文章，未经授权禁止转载。详情见转载须知。