OpenAI和谷歌们,如何合法地“偷”你的数据训练AI?

虎嗅网  •  扫码分享
我是创始人李岩:很抱歉!给自己产品做个广告,点击进来看看。  

本文来自微信公众号: 极客公园 (ID:geekpark) ,作者:芯芯,题图来自:视觉中国


你知道吗?自己的数据,现在已经开始合法地被互联网大厂们用作AI训练了。


在新一波的AI竞赛中,由于训练模型需要大量数据,当互联网的普通数据挖掘殆尽,平台上大量用户的个人内容,便成了充满诱惑的矿藏。


一些硅谷的科技公司如此渴望新数据,开始偷偷摸摸把AI训练加入到数据使用政策中,赋予自己使用人们数据的权利。


在过去的一年多里,包括谷歌、Meta、Adobe、Zoom和X等大公司纷纷更新其服务条款或隐私政策,允许自己利用用户数据来训练生成式AI模型。


这些互联网大厂,都偷偷在“服务条款”里塞进了什么货?


一、硅谷巨头的“小动作”


随着科技巨头对数据的渴望越来越强烈,它们正在仔细重写其条款和条件,以包含“人工智能”“机器学习”和“生成式人工智能”等词语。


为了避免用户对隐私问题的反感,公司有时悄悄地进行这些更改。在许多情况下,用户会在未阅读一字的情况下点击同意,毫无警觉地接受协议。


下面是硅谷大厂们在用户服务条款中各自“夹带私货”的细节:


1. 谷歌


在2022年末,当OpenAI发布了ChatGPT并引发了全行业的追赶竞赛后,谷歌的研究人员和工程师开始讨论如何利用其他用户数据。数十亿字数的内容存储在人们的谷歌文档和其他免费应用中,但是公司的隐私政策限制了如何使用这些数据。


当时,谷歌的隐私政策规定公司只能使用公开可用信息来“帮助训练谷歌的语言模型和构建像谷歌翻译这样的功能”。


去年6月,据纽约时报报道,谷歌的法律部门要求隐私团队起草条款,以扩展公司可以使用消费者数据的范围。


去年7月,谷歌对其隐私政策进行了修改,增加了公共信息可用于训练其AI聊天机器人和其他服务的内容。


我们使用公开可用的信息来帮助训练谷歌的AI模型,并构建诸如谷歌翻译、Bard和云AI功能等产品和功能 。”


为了安抚用户,谷歌声明称,其隐私政策的变更“只是澄清了像Bard (现为Gemini) 这样的新服务也包括在内。我们并没有因为这种变化而开始用其他类型的数据来训练模型”。


谷歌的AI训练当然也有用最私人化的数据,如给朋友和家人的信息。谷歌发言人表示,在得到一小群用户许可的情况下,谷歌被允许在某些方面使用他们的个人电子邮件训练其人工智能。


2. Meta


去年Meta就更新了相关隐私政策,用户“在我们的产品和服务上提供的活动和信息”将被用来训练其AI,包括在使用像其AI工具时所写或所说的一切。


Meta表示,其AI不会读取用户在Messenger和WhatsApp等应用上与朋友和家人之间发送的消息,除非用户在消息中@了其AI聊天机器人。 Meta将与AI互动的责任推给用户,表示人们应该“注意”他们在提示中所说的话 ,比如不要包括任何个人信息,如家庭地址或电话号码。


Meta声明表示:“我发送给生成式AI功能的信息会发生什么?AI可能会保留并使用您在聊天中分享的信息,以提供更个性化的响应或相关信息,我们可能会与可信赖的合作伙伴 (如搜索提供商) 共享您提出的某些问题,以提供更相关、准确和最新的响应。”


“使用公开可用的信息训练人工智能模型是整个行业的惯例,并非我们的服务独有。”Meta发言人在声明中说。


3. X


马斯克一直在构建一个AI项目。去年9月,X在其隐私政策中添加了一句话,关于机器学习和人工智能。


“我们使用收集到的信息来提供和运营X产品和服务。我们还使用收集到的信息来改进和个性化我们的产品和服务,以便您在X上获得更好的体验,包括向您展示更相关的内容和广告、建议您关注的人和主题、启用和帮助您发现关联公司、第三方应用和服务。我们可能会使用收集到的信息和公开可用的信息来帮助训练我们的机器学习或人工智能模型,以实现本政策中概述的目的。”


4. Snap


Snap有些服务条款的变更只有几个字。另一些则新增了整段内容来解释生成式人工智能模型的工作原理,以及它们对用户数据的访问类型。


例如,今年,Snap更新了其聊天机器人My AI的数据收集的隐私政策。 Snap提醒用户不要与其人工智能聊天机器人分享机密信息,因为这些信息将用于训练


“My AI是一个基于生成式AI技术构建的聊天机器人,设计理念确保安全。生成式AI是一种正在开发的技术,它可能会提供有偏见、不正确、有害或误导性的答案。所以,你不应该依赖它的建议。您也不应该分享任何机密或敏感信息——如果您这样做,My AI会使用它。”


“当您与My AI互动时,我们会使用您分享的内容和您的位置 (如果您已启用Snapchat的位置共享) 以改进Snap的产品,包括增强My AI的安全性,并个性化您的体验,包括广告。”


5. Zoom


Zoom去年7月开始更新其服务条款,说明会将用户数据用于训练AI,但遭遇用户和隐私提倡者的大量批评。在面临社交媒体上的强烈反对声音后,Zoom去年8月又再次更新了服务条款,澄清未经同意不会使用视频、音频或聊天内容。


更新后的服务条款仍然要求用户“在此授予Zoom永久性、全球性的、非独占性的、免版税的、可转许可和可转让的许可及所有其他权利”使用客户内容。


这些权利包括“重新分发、发布、导入、访问、使用、存储、传输、审查、披露、保存、提取、修改、复制、共享、展示、复制、分发、翻译、转录、创作衍生作品和处理”客户内容。


条款不再具体提及Zoom有权就客户内容进行“AI和ML训练”,而是更模糊地提到“服务开发、营销、分析、质量保证、机器学习、人工智能、培训、测试、服务、软件或Zoom其他产品、服务和软件的改进,或以上任何组合”。


6. Adobe


今年6月初,Adobe因在其隐私政策中加入了一句关于自动化的短语,激怒了不少创作者,许多用户将其解读为与AI数据抓取有关。


“我们访问您的内容:我们可能会通过自动和手动方法访问、查看或聆听您的内容,但仅在有限的方式下,并且仅在法律允许的情况下。”


这些条款影响了Adobe创意云套件的超过2000万用户,一些用户认为这允许Adobe访问、查看他们的内容,包括受保密协议保护的作品。 一些用户认为Adobe正在监视他们的工作,吸收用户的艺术作品,并可能将其用于训练AI模型。


在用户强烈反对后,Adobe更新了服务条款,明确表示不会使用客户作品训练AI。


Adobe通过博客文章澄清,这些变更是为了检测和删除非法内容,例如儿童色情材料 (CSAM) ,以及滥用内容或行为,包括垃圾邮件和网络钓鱼。Adobe不会使用存储在Adobe云上的文件来训练其Firefly AI。


二、提前占好“免责”的坑


不过,巨头们的小动作,还是有监管在看着的。


美国联邦贸易委员会 (FTC) 长期以来一直盯着与公司隐私政策有关的欺骗性和不公平行为。过去曾起诉过那些以偷偷摸摸的方式更改隐私政策、破坏对消费者的现有承诺的公司。


今年2月,美国联邦贸易委员会警告科技公司,改变隐私政策以追溯性地抓取旧数据可能是不公平或欺骗性的,将追究“悄悄”更改隐私政策以挖掘用户数据用于训练AI的公司的责任。


FTC指出,公司可能会被诱惑从其用户群中挖掘现有数据以供AI模型使用,有“强大的商业动机” 。FTC称公司潜在的困境是利益冲突。“市场参与者应注意,任何背弃其用户隐私承诺的公司都可能触犯法律。”


不过,就在上周,微软AI CEO Mustafa Suleyman公开称,互联网的公开内容可以被免费拿来训练AI,如此直白的发言引起了强势的舆论反弹。


从硅谷巨头们在用户使用条款中的改动可以看出, 各家确实都在利用产品优势,将用户数据用于AI训练。不过,具体哪些数据会拿来训练,哪些不能拿来训练,行业内仍未达成一个共识 ——一项技术出现的早期,肯定会出现这种规则缺乏的“狂野西部”的阶段。


而上述被“动了手脚”的使用条款,无疑是巨头们为之后免责提前占的坑。不出意外的话,国内一众大厂和AI公司,应该也已经在用户条款中悄悄修改、添加了AI训练的内容。


对于普通用户而言,对于长达数十页的用户使用条款,99%都会直接无视。但是,如果这个产品,能通过有限的数据复制出一个“你”的时候,用户是不是该更谨慎一些?


本文来自微信公众号: 极客公园 (ID:geekpark) ,作者:芯芯

本文被转载2次

首发媒体 虎嗅网 | 转发媒体

随意打赏

提交建议
微信扫一扫,分享给好友吧。