Facebook又陷“数据泄露”丑闻!涉及用户多达300万
根据美国媒体《新科学家》的调查显示,Facebook平台上一款颇受欢迎的性格测试应用myPersonality将用户提交的隐私问卷的答案保存在了不安全的网站上,网站访客可随意查看。此次myPersonality应用数据泄露涉及用户高达数百万。
通过一个缺乏安全证书的网站,剑桥大学的学者将这款性格测试应用myPersonality内的用户数据分发给了数百名研究人员。结果导致过去4年间,任何人都可以在网上搜索并访问这些数据。非法获取这些数据变得易如反掌。
myPersonality应用上的用户数据非常敏感,涉及Facebook用户的个人信息,例如用户填写的心理测试的结果。应用上保存的数据本来是要匿名共享的,但是由于匿名化处理不够专业、严格,想要对数据进行反匿名化并非难事。
“这种类型的数据内容相当丰富,极有可能被不良人士加以滥用,”在线隐私基金会的创始人之一克里斯·萨姆纳说道。英国隐私监督部门信息专员办公室发言人向《新科学家》透露,他们正采取行动进行隐私泄露调查。
这些保存在应用上的数据集由剑桥大学心理计量学中心的研究者大卫·史迪威尔和迈克尔·科辛斯基控制。亚历山大·科根作为之前剑桥分析事件的核心人物,早在2014年夏天就参与了myPersonality项目。因此,这两者很可能存在一定关联性。
4月7日,Facebook方面宣布暂停了这款应用,原因是该应用违反了其语言使用政策及数据共享政策。
据统计,共有600多万用户参与了myPersonality应用的测试,其中近一半的人同意分享自己的数据。所有这些数据都被收集起来,经过匿名化处理,再放到网站上与其他研究人员分享。有了这些经过用户同意的条款,myPersonality的团队就可以以“匿名的方式使用和分发数据,并且保证即使利用这些信息也不能追溯到个人用户”。
为了能够访问完整的数据集,用户必须注册参与该项目。有来自近150家机构的280多位研究人员参与了此项目,其中包括来自多所大学和多家公司的研究人员,例如Facebook,谷歌,微软和雅虎。
数据获取便利
但是,对于那些因为没有获得永久性的学术身份而无权访问数据集的人来说,这为他们提供了一个简单可行的方案。在过去的四年里,用户只要在网上简单搜索,就找到一个可用的用户名和密码。任何人想要访问数据集,都可以在一分钟内找到下载的方法。
这些供公开使用的用户名和密码被挂在代码共享网站GitHub上。在这之前,大学有一个课程项目是要求开发一款能够用于处理Facebook数据的工具。为了完成这个项目,一位大学讲师已经将这些数据告知学生。在计算机科学中,将代码上传到GitHub网站是及其常见的,因为这样其他人就可以重新使用部分信息,也包括学生的工作登录凭证。
myPersonality不仅仅只用于学术用途,只要商业公司的研究人员同意严格遵守数据保护程序,并保证不将这些数据用于商业用途,他们也有权访问这些数据。
史迪威尔和科辛斯基都是一家名为剑桥个性研究的子公司的员工。该公司基于对myPersonality应用上用户数据集信息的掌握,分析用户个性类型,从而向目标客户投放精准广告。该公司网站称这款工具就像读心术一样能够“看透用户”。
Facebook平台上涉及泄露用户数据的应用数量庞大,Facebook对此已经展开广泛调查,myPersonality赫然在列。对Facebook的指控起先针对剑桥分析公司是如何从亚历山大·科根开发的一款名为“This Is Your Digital Life”的心理测试应用程序来进行数据访问,现在范围更广,涉及更多。
据最新消息,Facebook宣布自开始对平台上的第三方应用是否滥用用户数据展开详尽调查以来,目前为止约200个应用程序已经被迫暂停了。
史迪威尔表示,早在2013年,剑桥分析公司已经与myPersonality应用团队进行联系尝试获取数据,但因其政治野心过于明显,myPersonality拒绝了与其合作。
“我们目前正在调查该应用,如果myPersonality拒绝合作或未通过我们的审核,我们会即刻禁止,”Facebook产品合作副总裁伊姆·阿其邦表示。
myPersonality应用程序网站现已停用,之前用户可随意使用的资料也已不可用。除此之外,史迪威尔的网站和Twitter帐户已被注销。
“此次数据泄露事件与myPersonality应用有关,我们十分清楚,并且正在进行调查。”英国隐私监督部门信息专员办公室的发言人在接受《新科学家》采访时说道。
用户数据泄露
有310万用户参与了“五大”个性模型的测试,myPersonality将用户个性测试的评分进行收集,用于评估人们的心理特征,比如严谨,随和和神经质。这些数据还暴露了超过150,000名用户的2200万次状态更新,以及430万人的详细信息,例如年龄,性别和社会关系状态。
“不管任何时候,如果本应该被限制的文件的用户名和密码被公开了,将会带来严重后果,” 世界隐私论坛的执行主管帕姆·迪克森说。“这不仅仅只是一种不安全的做法,还是一种严重的违反道德的行为,因为它允许陌生人随意访问隐私数据。”
除了密码泄露以及将数据分发给数百名研究人员之外,匿名化处理的操作方式也令人深感担忧。
数据集中的每个用户都有一个唯一的ID,它将年龄、性别、位置、状态更新以及个性测试结果等数据串联在一起。数据涉及很多,想要对其进行反匿名化处理可以说是非常容易。“通过某人的状态更新、性别和日期,你就可以在线对他进行重新识别了,”迪克森说。
这个过程可能是自动化的,能快速获悉数据集中数百万用户的身份,并将其与个性测试的结果联系起来分析。
“只要数据集包含的个人属性足够多,对其进行匿名化处理的难度就非常高,”伦敦帝国学院的助理教授Yves-Alexandre de Montjoye说。因此,最好的方法是为研究人员提供一种运行数据测试的方法,而非分发实际的数据集。这样的话,他们既可以得到汇总的结果,而且也不需要访问个人信息。“数据的使用不能以牺牲用户的隐私为代价,”他补充道。
剑桥大学表示,他们已经留意到信息专员办公室围绕myPersonality应用发起的调查。它还表示,由于该应用程序是史迪威尔在进入剑桥大学之前开发的,“我们无权通过我们的道德审批程序来进行评判”。 它还说道:“剑桥大学对该款应用没有控制权,也不曾利用过其中的数据”。
这种类型的研究可以帮助人们理解Facebook上的政治性广告是如何投放的,虚假新闻是如何传播的。但同时,它也显示出了这种数据集真实的强大力量以及这些数据集需要多么严密的保护措施。“显然,数据共享需要更多的控制和监督,但是停止这类研究则是错误的做法。”萨姆纳说。
史迪威尔说,在项目进行的九年间,只出现过一次数据泄露事件,而且访问数据集的研究人员必须同意不对数据进行反匿名化处理。“我们相信通过在研究界适当控制匿名数据的共享,学术研究一定会受益良多,”史迪威尔向《新科学家》表示道。
他还表示,Facebook一直都知道myPersonality项目,并且早在2011年Facebook就同他和科辛斯基进行了会议。“现在,Facebook突然自称并不了解myPersonality的研究,而且认为使用这些数据违反了Facebook的条款,这太奇怪了。“他说。
Facebook和英国隐私监督部门信息专员办公室联合发动的调查应该确定访问myPersonality数据的人以及这些数据的用途。然而,因为这些数据被太多不同的人分享过,要找出每个将数据复制保存的人,确认他们使用数据的用途将会非常困难。我们永远都不能准确知道是谁使用了这个数据集,又把这个数据体用于何处。“这些问题都还只是冰山一角,”迪克森说,“更大的问题在于还有谁掌握了这些数据?”