未经许可使用百万照片训练人脸识别，IBM或将陷入隐私争议

雷锋网 • 6年前扫码分享

雷锋网 (公众号：雷锋网) 消息，人脸识别在如今早已不是什么新鲜技术，他可以让你解锁iPhone，也可以通过人群跟踪犯罪分子，还能识别商店中的忠实客户。

这项技术还算不上完美，但它基于人工智能算法，一直在迅速改进。要想做到这一点，必须用成千上万的不同人脸图像来“喂养”算法。这些图像大多来自互联网，根据年龄、性别、肤色和其他几十项指标进行分类，并与大学和公司的研究人员分享，而发布这些照片的人却并不知情。

随着训练的积累，算法越来越完善，能够更好的识别各种不同人种，但法律专家和民权倡导者对研究人员发出了警告，在未经同意的情况下使用他人面部图像进行识别训练，最终可能会成为监视技术的发展动力。这对少数族裔来说是一个特别的担忧，他们可能会受到关注，成为攻击目标。

最近，IBM也陷入了这一领域的纷争，被指在今年1月从网络相册Flickr上拍摄了近100万张个人照片，并对照片进行了编码，以描述照片对象的外观。IBM与外部研究人员分享照片，希望能减少面部识别中存在的“偏见”问题。

然而问题是，在Flickr上传照片的用户并不同意把他们的照片用来开发面部识别系统，虽然摄影师可能已经获得了为这些人拍照的许可，但被拍照的人不知道他们的照片上有面部识别注释，可以用来训练识别算法。

顺便说一句，这些照片最初不是由IBM汇编的-它们是被称为YFCC100M的更大的9920万张照片库的一部分，YFCC100M是Flickr之前的东家雅虎公司最初为进行研究而收集的。所有照片都是在CreativeCommonsLicense版权协议下共享的，这种版权协议表明照片可以自由使用，但存在一些限制。

尽管IBM人工智能研究主管John Smith表示，IBM致力于“保护个人隐私”，“将与任何要求从数据集中删除URL的人合作”，且IBM保证Flickr用户可以选择退出数据库，但美国全国广播公司发现，用户想删除这些照片几乎是不可能的。

IBM要求被摄者将希望删除的照片链接通过电子邮件发送给他们，但IBM却尚未公开分享数据集中包含的Flickr用户和照片列表，因此用户很难通过官方渠道获知有哪些照片被用于项目，也就谈不上给IBM发送链接邮件。

IBM对这一“bug”方案一直保持沉默，反倒是美国全国广播公司从不同的来源获得了数据集，并在其文章中为摄影师制作了一个工具，用于检查他们的Flickr账户名是否包含在IBM的数据库中。

IBM表示，建立照片数据集旨在帮助学术研究人员改进更加公平的面部识别技术，IBM并不是唯一一家以这种方式在互联网上使用公开照片的公司，其他数十家研究机构也收集了用于训练面部识别系统的照片，其中许多规模更大、更近期的照片集都是从网上搜集的。

一些专家认为，这不仅仅是对数百万人的隐私权的侵犯，引发了人们对人脸识别进步的广泛担忧，他们担心执法机构将利用这一技术来针对少数族裔。

。