深度 | “机器学习看脸定罪”引争议,谷歌 : 用更智能AI 算法反歧视

我是创始人李岩:很抱歉!给自己产品做个广告,点击进来看看。  

1 新智元编译

来源: arxiv.org、news.ycombinator.com、research.google.com

编译:刘小芹

   新智元启动新一轮大招聘 :COO、执行总编、主编、高级编译、主笔、运营总监、客户经理、咨询总监、行政助理等 9 大岗位全面开放。

   简历投递:j obs@aiera.com.cn

   HR 微信 13552313024

   新智元为COO和执行总编提供最高超百万的年薪激励;为骨干员工提供最完整的培训体系、 高于业界平均水平的工资和奖金。

   加盟新智元,与人工智能业界领袖携手改变世界。

   【新智元导读】 上海交通大学的两位研究者武筱林与张熙的一项题为“利用脸部照片自动推断犯罪性”的研究,利用基于有监督的机器学习的方法, 用 1856 张真实的人的脸部照片建立四个分类器(逻辑回归,KNN,SVM,CNN) ,根据人的脸部特征预测一个人是否有犯罪倾向,并评估这些分类器的表现。 Google 博客文章《用更智能的机器学习打击歧视》提出改进机器学习系统来避免歧视, 认为优化“机会均等”只是可用于改进机器学习系统的许多工具中的一个,而数学本身不可能得到最好的解决方案。对抗机器学习中的歧视问题需要仔细、多学科结合的方法。

   最近,上海交通大学的两位研究者武筱林与张熙的一项题为“利用脸部照片自动推断犯罪性”(Automated Inference on Criminality using Face Images)的研究,试图利用基于机器学习的分类器模型充当 dominator,根据人的脸部特征预测一个人是否有犯罪倾向。研究者称“四个分类器(逻辑回归,KNN,SVM,CNN)都表现良好,为根据脸部特征自动预测犯罪性(criminality)提供了有效性证据”,并且“发现了一些可以预测犯罪性的结构上的区别特征,例如嘴角的弧度、眼内角间宽、以及所谓的鼻唇角角度”。研究者认为“不同于人类法官,计算机视觉算法/分类器不会有歧视,不会受到情绪、宗教、性别等因素的影响,因此具有客观性上的优势”。这项研究引起了相当多的讨论。

   论文摘要

   我们首次进行基于静止的人脸图像自动推测犯罪性的研究。通过有监督机器学习,我们使用 1856 张真实的人的面部照片建四个分类器(逻辑回归,KNN,SVM,CNN),这些人中有近一半是已被定罪的犯罪者,其余是非犯罪者,我们以民族、性别、年龄和面部表情作为控制要素,让计算机区分犯罪者和非犯罪者。四个分类器都表现良好,为根据脸部特征自动预测犯罪性提供了有效性证据,尽管围绕该主题存在历史性争议。此外,我们发现一些可以预测犯罪性的结构上的区别特征,例如嘴角的弧度、眼内角间宽、以及所谓的鼻唇角角度。这项研究最重要的发现是,犯罪者和非犯罪者的面部照片在表情的多样性方面非常不同。犯罪者的面部表情变化明显大于非犯罪者。由两组照片组成的两个流形看起来是同心的,非犯罪者的流形的跨度较小,表现出正常的规律。换句话说,一般守法公民的面貌与犯罪者的面貌相比具有更大程度上的相似性,也就是说,犯罪分子在面部表情上的差异比普通人更大。

   数据准备

   研究者收集了 1856 个人的证件照,他们都满足以下条件:中国人,男性,年龄在 18 至 55 周岁,没有胡子,脸上没有伤疤或其他标记。研究者把这个数据集标记为 S,再把它分为两个子数据集 Sc 和 Sn,Sc 代表犯罪者,Sn 代表非犯罪者。其中 Sn 包含 1126 张普通人的证件照,Sc 包含 730 张犯罪者(包括 330 张被通缉逃犯)的证件照。

   深度 | “机器学习看脸定罪”引争议,谷歌 : 用更智能AI 算法反歧视

数据集中的样本证件照

   研究方法:四种分类器模型

   为了使研究尽可能考虑周到,研究者对前述证件照数据集使用了四种分类器方法,分别是 K-最近邻法(K-Nearest Neighbor,KNN)、逻辑回归(Logistic Regression)、支持向量机(Support Vector Machine,SVM)以及卷积神经网络(Convolutional Neural Network,CNN)。

   对前三种分类器,研究者比较了它们在较广泛的特征上的表现,包括:1. 面部标志点,例如眼角、嘴角、鼻尖等;2. 由 PCA 模块生成的面部特征向量;3. 基于局部二值模式(LBP)的面部特征向量;4. 上述三者的结合。CNN 是没有明显特征向量的数据驱动的分类方法。对上述所有分类器,采用了一共十三个交叉验证(3 种分类器 × 4 种向量特征,再加上 CNN),每个 10 次运行一共 130 次实验(13 cases × 10 runs),验证的结果采用平均值。

   结果

   深度 | “机器学习看脸定罪”引争议,谷歌 : 用更智能AI 算法反歧视

四个分类器在 13 次交叉验证中的正确率

   深度 | “机器学习看脸定罪”引争议,谷歌 : 用更智能AI 算法反歧视

误判率

   深度 | “机器学习看脸定罪”引争议,谷歌 : 用更智能AI 算法反歧视

四个分类器的总体正确率

   上图分别显示了四个分类器的总体正确率和误判率,可以看到,CNN 在交叉验证中的分类正确率最高,达到 89.51%。

   验证

   为了验证,研究者把数据集中的所有证件照以相等的概率随机标记为“正类”(positive)和“负类”(negative),并重做上述实验。结果表明,分类的平均正确率是48 %,正类和负类的错误率分别是 51% 和 50%。

   区别特征

   深度 | “机器学习看脸定罪”引争议,谷歌 : 用更智能AI 算法反歧视

   研究者接着采取机器学习的方法验证面部特征与犯罪性的关系,其方法是利用特征生成机(Feture Generating Machine,FGM)抓取面部的差别性特征(上图红框区域),比较的特征分别是眼内角间宽 d,鼻唇角角度 θ ,以及嘴角弧度 p。结果如下:

   深度 | “机器学习看脸定罪”引争议,谷歌 : 用更智能AI 算法反歧视

   三个判别特征的直方图

   深度 | “机器学习看脸定罪”引争议,谷歌 : 用更智能AI 算法反歧视

三个判别特征 p,d,θ 的平均值和方差

   结果显示,犯罪者的鼻唇角角度 θ 的平均值比非犯罪者大 19.6%,而且方差也更大;同样,犯罪者的平均嘴角弧度 p 比非犯罪者大 23.4%,但犯罪者的眼内角间距 d 比非犯罪者的稍小(5.6%)。这些结果证明了面部的区别特征可用于判断人的犯罪性,进一步地,能用于预测一个人是否倾向于犯罪。

   结论

   研究者在论文的结论中称,“通过多方面的实验和有力的交叉验证,我们证明了通过有监督的机器学习,由数据驱动的人脸分类器能够有效地推断人的犯罪性。此外,我们还发现了非犯罪者的面孔具有常态的规律性(相似性),在控制民族、性别和年龄等因素下,一般守法公民的面部表情比犯罪者的面部表情变化更少。”

   讨论

   有关这项研究的争论很多,下面从 Hacker News 上选取了几则,也欢迎读者留言讨论。

   来自 nl:

   当我阅读摘要时,我以为这是在开玩笑,但它看起来确实是一篇论文。 尤其是这一段,这是我见过的“研究人员没有理解他们在做什么”的最糟糕的例子之一:

   “与人类检察官/法官不同,计算机视觉算法或分类器绝对客观,它们没有情绪,没有由于过去的经验、种族、宗教、政治观念、性别、年龄等因素产生的偏见,没有精神疲劳、睡不好、吃不好等先决条件。自动推断犯罪性排除了元精确性(人类检察官/法官的能力)的变数。”

拜托,请读读《数学杀伤性武器》(Weapons of Math Destruction)了解优秀的机器学习是如何发现并利用数据集中的偏见的。

   来自 AbrahamParangi :

   我同意这种研究是有很长历史的伪科学(例如冥想学),甚至可以说这种研究是不负责任的。但我认为不应过度规定什么是有趣的科学,什么是有用的科学。可能它揭示了一些非常有趣的关系,如果它不做我们就可能错过这些发现。

   来自 a_bonobo:

   看起来他们没有把两个训练集(犯罪者/非犯罪者)分成两个测试集和训练集?

   来自 ongoodie:

   总的来说,我认为结果并不令人惊讶。大的遗传偏差会导致行为偏差和面貌的异常。另一方面,这个研究对执法来说毫无用处,因为对一般人来说,大多数看起来像犯罪分子的面孔其实是一般守法公民。但事实是,我们不喜欢这个研究的结果,不代表这个结果就是假的。可以参见第4页看它的验证,他们发现随机对图像进行标记无法产生这样好的分类结果。

   Google: 用更智能的机器学习对抗歧视

   Google 博客文章《用更智能的机器学习对抗歧视》(Attacking discrimination with smarter machine learning)提出改进机器学习系统来避免歧视,这与引争议的上海交大的论文有相通之处。文章介绍了“阈值分类器”(threshold classifiers),一种输出结果只有“是”或者“否”的分类方法,即把一样东西归为一类或另一类,这种分类方法经常引起“歧视”争论。例如在银行贷款的例子中,银行综合各要素,以自己的利益最大化为目的,对每个申请贷款的人设置一个信用指数的“阈值”,高于这个值的人能得到贷款,低于这个值的人得不到贷款。研究者提出“机会均等”(equal opportunity)概念,在贷款的例子中,即是约束那些能够偿还贷款的人,每个组中处于相同部分的人实际上应该得到贷款。用数据科学的术语来说,即是“真阳性率”(true positive rate)在每个组中应该是相同的。

   深度 | “机器学习看脸定罪”引争议,谷歌 : 用更智能AI 算法反歧视

   左:阈值分类器。信用分数越高,偿还贷款的可能性越高。深色圈代表偿还贷款的人,浅色圈代表违约者。右:分类的结果。

   Google 研究者的论文中一个关键的结果是,基本上任何评分系统都可以有效地找到满足这些标准的阈值。也就是说,即使无法控制基础的评分系统,也能够抵抗歧视问题。对于能够控制评分系统的组织,使用这些定义可以帮助澄清核心的问题。如果一个分类器对某些组不如其他组那样有效,那么它可能在具有最多的不确定性因素的组里引起问题。平等机会阈值的限制将“不确定性责任”转移到评分系统的创建者身上。这就为投资于更好的分类器提供了动力。

   深度 | “机器学习看脸定罪”引争议,谷歌 : 用更智能AI 算法反歧视

   图:对不同的组模仿贷款决定。如在“机会均等”的预制贷款策略中,蓝色和橙色组的人偿还能力相等。这样利益和公平性都得到最大化,总体来说能获得贷款的人也最多。

   Google 研究者认为优化“机会均等”只是可用于改进机器学习系统的许多工具中的一个,而数学本身不可能得到最好的解决方案。对抗机器学习中的歧视问题需要仔细、多学科结合的方法。

   参考资料来源:

   http://research.google.com/bigpicture/attacking-discrimination-in-ml/?

   https://arxiv.org/abs/1611.04135

   https://news.ycombinator.com/item?id=12983827

新智元招聘

   职位 运营总监

职位年薪:36- 50万(工资+奖金)

工作地点:北京-海淀区

所属部门:运营部

汇报对象:COO

下属人数:2人

年龄要求:25 岁 至 35 岁

性别要求:不限

工作年限:3 年以上

语 言:英语6级(海外留学背景优先)

   职位描述

  1. 负责大型会展赞助商及参展商拓展、挖掘潜在客户等工作,人工智能及机器人产业方向

  2. 擅长开拓市场,并与潜在客户建立良好的人际关系

  3. 深度了解人工智能及机器人产业及相关市场状况,随时掌握市场动态

  4. 主动协调部门之间项目合作,组织好跨部门间的合作,具备良好的影响力

  5. 带领团队完成营业额目标,并监控管理项目状况

  6. 负责公司平台运营方面的战略计划、合作计划的制定与实施

   岗位要求

  1. 大学本科以上学历,硕士优先,要求有较高英语沟通能力

  2. 3年以上商务拓展经验,有团队管理经验,熟悉商务部门整体管理工作

  3. 对传统全案公关、传统整合传播整体方案、策略性整体方案有深邃见解

  4. 具有敏锐的市场洞察力和精确的客户分析能力、较强的团队统筹管理能力

  5. 具备优秀的时间管理、抗压能力和多任务规划统筹执行能力

  6. 有广泛的TMT领域人脉资源、有甲方市场部工作经验优先考虑

  7. 有媒体广告部、市场部,top20公关公司市场拓展部经验者优先

   新智元欢迎有志之士前来面试,更多招聘岗位请访问新智元公众号。

随意打赏

提交建议
微信扫一扫,分享给好友吧。