深度 | 专访微软杰出科学家 Cynthia Dwork:不公平待遇竟是算法惹的祸?
选自Wired
机器之心编译
参与:曹瑞
理论计算机科学和理论数学一样离我们很遥远,也非常抽象,但新的研究总是聚焦在真实世界的实际问题。Cynthia Dwork 的研究就是如此。
在 Dwork 成就斐然的职业生涯当中,她提出了一种解决计算能力和人类活动之间复杂连接问题的严格方案。而 Dwork 最著名的创造则是她在 21 世纪初的那几年提出的「差分隐私」(differential privacy)技术,这套技术可以在一个大型数据库中对个人隐私进行保护。差分隐私可以保证很多方面的个人信息,比如一个人将自己的基因信息贡献给了医疗数据库,她不需要担心其他分析数据库的人可以找到她的基因信息,甚至是查询到她的数据是否在数据库当中。达到这样的安全保障,也让研究者们使用数据库做出新的发现成为了可能。
Dwork 近期的研究也有一些相似之处。2011 年,她开始对算法设计当中的公平性问题产生了兴趣。根据她观察发现,算法对我们一些经历的控制越来越严重:比如说它们决定了我们在网上观看的广告、我们有资格申请的贷款、学生选择的大学。在这样的影响下,算法是否能够按照公平的方式对人们进行分类就变得非常重要。如果一家银行针对一小部分申请者提出了一套信贷条款,而对另外一些人又是不同的条件,我们不会认为这存在道德方面的问题。但是最近的研究表明,在数学家 Cathy O』Neil 所著的《数学毁灭性武器》(Weapons of Math Destruction 一书中也特别提到的一点是,我们日常生活当中拒绝的差别对待,在算法当中正在悄然发生。
隐私和道德是哲学领域一直探讨的两个问题。近来,这两个问题似乎开始在计算机科学当中寻求解决方法。Dwork 目前在微软研究院工作,将于 1 月份开始在哈佛大学任职。在过去的 5 年当中,她一直致力于在算法公平性的研究方面探索出一片新天地。本月初,她参与组织了哈佛的一次研讨会,会上聚集了各种计算机科学家、法学教授和哲学家。
《量子杂志》(Quanta Magazine)有幸与 Dwork 进行了交谈,过程中提到了算法公平性、她对一些具有重大社会意义问题的兴趣、以及她童年学习音乐的经历与现在研究算法设计之间的联系等方面的问题。下文是对 Dwork 采访的精简剪辑版。
《量子杂志》:你从什么时候开始清楚地意识到计算机科学是你愿意花费精力去研究的一个领域?
Cynthia Dwork: 我的兴趣很广泛,包括科学和数学。我也非常喜欢英语和其他外语,几乎对所有的事情我都感兴趣。但我申请普林斯顿大学的工程学院只是随便试试。我记得当时我妈妈对我说,「这对你的众多兴趣来说,可能是个不错的结合」,我觉得她说的是对的。
所以说 这有一点像是在闹着玩,但是从另一方面来说这是一个非常好的起点。大三的时候我第一次接触到自动机理论(automata theory),这让我意识到我可能不应该去找一份编程的工作,而是应该成为一名哲学博士。对一些物质的研究确实很让人着迷。我对这个理论非常地感兴趣。
《量子杂志》:你最著名的创造就是你在「差分隐私」技术上的研究。当前你对算法「公平性」的研究当中有什么吸引你的地方?
Cynthia Dwork: 我想解决一个新的问题。我只是想换点花样,考虑不同的问题。我已经感受过了隐私工作的社会使命,我们正在解决或尝试去解决的是一个真正的问题。所以我想找一个新的问题,一个有一些社会意义的问题。
《量子杂志》:为什么选择公平性呢?
Cynthia Dwork: 因为我可以看出这已经开始成为现实生活当中的一个主要问题。
《量子杂志》:这样的情况是怎样产生的呢?
Cynthia Dwork: 我认为,我们可以很清楚地看到算法的使用已经开始影响个人在生活当中的选择。比如说,它们可以选择要把什么样的广告展现给观众。我们可能觉得广告对我们的生活选择影响不大。但是人们接触到的东西对它们有很大的影响。我也预期过算法能够被用到大学入学资格的筛选当中,或者是决定谁有资格获得贷款。
但是我没有预见算法还可以被用到求职者的筛选和其他的一些领域当中。所有的这些东西,你的信用期权情况如何,你可能会找到什么类型的工作,你会进入什么样的学校,你在上网时会浏览到什么样的信息,这些看似微不足道的事情其实都很重要。
《量子杂志》:你在 2012 年的研究论文中提到了「意识」的概念,为什么这个概念很重要呢?
Cynthia Dwork:这篇论文中有一个例子是:假设在一个少数人的群体当中,我们引导聪明的学生去学习数学和科学,而在一个主要的群体当中,聪明的孩子被引导去学习金融。现在如果有人想用一个快速但是粗糙的分类器来找出聪明的学生,那么或许他们应该去找那些学习金融的学生。因为毕竟大多数人的群体比少数人的群体更大,分类器总体来说也会更加精确。问题不仅在于这对于少数人是否公平,还在于它减少了实用性,因为分类器其实应该要知道如果你是少数人当中的一员,并且你也学习数学,那么你就应该被视为是大多数群体当中学习金融的一员。这也更加体现了这篇论文的标题「意识当中的公平性」(Fairness Through Awareness),这里的意识指的是跨文化意识。
在这篇论文当中,你在公平对待个人和公平对待群体之间做了区分。你认为有时候仅仅公平对待个人还不够,还需要认识到群体之间的差异,并且确保具有相似特征的人群能够被平等对待。
在这篇论文当中,我们从个人公平出发,讨论了个人公平和群体公平之间的联系。我们从数学的角度出发调查了几个问题,个人公平在什么时候能够保障群体公平,如果不能达到个人公平,能做些什么保证群体公平。
《量子杂志》:如果个人公平不能够保证群体公平会怎么样?
Cynthia Dwork: 如果有两个群体,特点截然不同。比如说,我们要用考试成绩作为大学招生的标准。如果说两个群体在一次标准考试上的结果大相径庭,那么要是在标准考试的分数上只设一个门槛的话就无法保证群体公平。
《量子杂志》:这与你提出的「公平平权措施」(fair affirmative action)相关吗?
Cynthia Dwork: 在这种特殊的情况下,我们的方法就应该像是一些州的做法一样,比如说在德克萨斯州,每一所高中的尖子生都可以保证获得任意一所州立大学的录取,甚至是德州大学�斯汀分校。绕开学校,与每一所学校的尖子生直接对话,就可以在每一个群体当中挑选出最优秀的学生。
也有一些和公平平权措施相类似的东西。耶鲁大学有一位分配公平方面的专家,名叫 John Roemer,他的一个想法是按照学生母亲的受教育程度对学生进行分层,再根据学生每周在作业上花费的时间挑选出一些学生,再从每一个层中挑选出比较出色的学生。
《量子杂志》:为什么不能直接按照他们在家庭作业上花费的时间,在所有的学生当中进行分类挑选呢?
Cynthia Dwork: Roemer 观察发现一个非常有趣的现象,这个现象非常的感人。如果学生的家庭教育背景很低,他们可能不会意识到每周花大把时间来学习是一件很有必要的事情。之前从来没有人发现过这个问题,甚至是学生也没有发现这个问题。这个现象确实有些让人动容。
《量子杂志》:你觉得这个现象当中哪里让你觉得感动?
Cynthia Dwork: 我在高中的时候有一段非常有趣的经历。我大约从六岁的时候就开始弹钢琴,所以我「尽职尽责」地坚持每天练习半小时。我感觉很好。但是有一次,应该是在高一的时候,我经过礼堂听到有人在弹奏贝多芬的奏鸣曲。他是一名高二的学生,弹得就像是在音乐会上那样好,比我弹得好很多很多。在那之后,我开始每天练习大约四小时。但是在我遇到这个学生之前,我从没有意识到会发生这样的事情,我从没想过有学生可以弹琴弹得这么好。我想这可能就是为什么 Roemer 的言论会让我这么为之动容。在我丰富的生活当中,也有过这样的经历。
《量子杂志》:你的父亲 Bernard Dwork,是一位数学家并且长期在普林斯顿大学任教。所以说在某种程度上,他是不是你效仿的榜样,当然是作为学者而不是钢琴演奏家?他的工作有没有在某种程度上对你有所激励?
Cynthia Dwork: 他的工作并没有直接激发我在计算机科学方面的兴趣。我认为在一个有学术背景的家庭中成长和在一个没有学术背景的家庭中成长相比,给我的影响是我需要对我的工作有浓厚的兴趣,并且要时时刻刻在思考。毫无疑问,我也接受了一些行为准则,以便于我可以自然地与别人交流、去开会、听讲座和阅读,但是从本质上来讲我不认为这是数学。
《量子杂志》:你学钢琴时的课程对你的研究方法有影响吗?或者换句话说,你有没有经历一些事情,让你知道该怎样在计算机科学领域获得成功?
Cynthia Dwork: 当我完成研究生院的所有课程要求时,我开始考虑我该怎么做研究。后来有一位非常著名的计算机科学家 Jack Edmonds 来参观计算机科学院。我就问他,「你的那些伟大的研究成果是怎么来的?它们就是那么自己发生的吗?」他看着我,然后盯着我看,后来冲我喊道,「是我额头上的汗水换来的!」
《量子杂志》:所以你也是这样创造出了最佳的研究成果吗?
Cynthia Dwork: 这是唯一的方式。
《量子杂志》:你说过,主导算法如何对待不同人的「标准」,是计算机科学家们需要去研究的一些最重要的事情。你能解释一下标准(metric)是什么意思吗?为什么它在确保公平当中这么重要?
Cynthia Dwork: 我认为相似的人应该接受相似的对待,这在我对公平的理解当中是非常重要的。并不是所有的事物都是围绕着公平展开的,很明显在一些情况下一些差别很大的人应该被差别对待,通常来说,这种情况更加复杂。尽管如此,那些相似的人还是应该受到相似的对待。标准是表明你对待(任意)两个不同的人的方式有多相似,你可以区别对待两个不同的人,但这种区别必须限定在一定的范围。
《量子杂志》:你之前有提到你认为现在对公平的研究要比之前对隐私的研究艰难得多,绝大部分原因是因为很难提出这些标准。为什么会这么难呢?
Cynthia Dwork: 想象一下,你把两个学生的入学申请交给大学招生的负责人。这两个学生非常不一样,但是他们想要成为学生的渴望是相似的。然而,这种相似性标准都会让你对这两个不同的学生做出比较,就好像比较苹果和橙子一样,最终要得出有意义的答案。
《量子杂志》:这样的挑战跟你之前在差分隐私上的研究相比较如何?
Cynthia Dwork: 我觉得现在面临的问题更困难。如果能有一种神奇的方法找到正确的标准,正确的衡量人与人之间差别的方式,我可能还会觉得有所进展。但是我不认为人类会赞同谁应该得到和谁相似的待遇。我并不知道该怎样使用机器学习或是其他一些统计方法来找到合适的答案,我也不知道该怎样回避你需要关于相似性的不同理解的这个问题,甚至是对于相同的人,但是不同的事物而言。比如说,根据广告判别护发产品是完全说得通的,但是根据广告判别金融产品就是违法的。
《量子杂志》:这看起来是一项非常艰巨的工作,甚至也许是不可能的。
Cynthia Dwork: 我把这看作是在太阳底下做事,也就是说使用的标准必须是公开的,人们有权利对此进行争论,也有权影响它发展的进程。我不认为所有的事情在一开始就是对的,我们只能尽我们所能,这也是我们论文强调的一点,我们要在标准当中倡导阳光公开。
原文刊于《量子杂志》,经Wired转载: https://www.wired.com/2016/11/humans-can-force-machines-play-fair/?mbid=nl_112616_p6&CNDID=9637186
©本文为机器之心编译文章, 转载请联系本公众号获得授权 。
?------------------------------------------------
加入机器之心(全职记者/实习生):hr@almosthuman.cn
投稿或寻求报道:editor@almosthuman.cn
广告&商务合作:bd@almosthuman.cn