“监听”、“抢跑”和“数据偷窃”：智能语音技术的猜疑链

虎嗅网 • 1年前扫码分享

我是创始人李岩：很抱歉！给自己产品做个广告，点击进来看看。

本文来自微信公众号：经济观察报（ID：eeo-com-cn），作者：李佩珊，头图来自：视觉中国

当代最盛行的恐怖“都市传说”，不再是虚无缥缈的异兽鬼怪，而是你的手机、电脑、智能音箱在内的一切有语音接口的智能设备，可能无时无刻不在监听你的工作和生活中的一切声音。

不少网友在社交媒体上分享过，自己在随口闲聊时提到的事物会无声无息地出现在App的信息流和广告中的经历。对于他们而言，这种经历第一时间触发的感受通常不是“贴心”，而是“恐怖”。 毕竟，谁能忍受自己的身边有一个可能全天24小时不间断在监听你的语音“间谍”，将自己的一切语音隐私“出卖”了呢。

2018年，美国俄勒冈州的“Alexa”事件，第一次点燃了公众对智能语音技术的恐慌。俄勒冈州波特兰市的一名女子告诉当地电视台，她的亚马逊智能音箱“Echo”，在没有触发唤醒词“Alexa”的情况下，自动记录下了她和丈夫关于家中铺地板的讨论，并将录音发给了她丈夫的一名员工。

随后，其他媒体也报道了类似事件。人们对智能语音设备的疑似“监控”十分愤怒。而包括亚马逊在内的智能语音设备的生产公司，所采用的解释“大同小异”，都将嫌疑指向了设备的“误触”，声称是设备错误地将用户的一些声音理解为请求，继而产生了乌龙操作。

这一疑似“监听”问题的实质，被避重就轻地绕开了。那么，一个人的声音是否会被智能设备大量记录下来，并且是否还会被用于定向的广告和信息流投放？

在《声音捕手：获取人们感受、隐私和金钱的智能语音营销》（The Voice Catchers：How Marketers Listen In To Exploit Your Feelings，Your Privacy，And Your Wallet）一书中，宾夕法尼亚大学的传播学教授约瑟夫·图罗（Joseph Turow）告诉我们，关于这两个问题的答案，其实已经藏在了你获准使用这些设备前，必须通过的隐私声明政策里。

他指出，制造智能语音设备的公司们，在遭遇公众表达恐慌后，纷纷表态不会将真实语音数据用于营销，然而，在它们的隐私声明政策中，他们“并未做出此类保证”，相反， “甚至暗示了他们保留这样做的权利”。

在亚马逊公司的隐私声明中，它写道，“你与Alexa交谈时的录音，就是本系统收集的信息的一种”。图罗认为，虽然这是一种含糊其辞的表达方式，但这说明亚马逊会将对话的整段录音当做信息保存起来，“意味着它保留了分析人们说话时的语气和细节的权利”。

这些语音数据被公司们收集起来，很大的一个作用是被当作在未来的语音人工智能阶段“超车”的训练数据集。他引用了2019年彭博新闻社的一篇报道，包括亚马逊在内的生产智能语音设备的几个“巨头”公司，在全世界雇佣了数量达到几千的员工，来“听”这些在用户家中和办公室捕捉到的语音记录。

他们的工作不仅包括将这些语音指令转成文本进行标注来改进识别正确率，也包括记录下音箱听到的所有内容，甚至包括背景里孩子们说话的声音。当他们听到那些包括用户姓名和银行账号在内的隐私信息时，他们所做的是在审查时将其标注上“关键数据” （critical data) 的标签，然后继续审查。

为了减少公众恐惧，这些“巨头”们在允许第三方开发的语音程序投放广告时十分审慎，但令人困惑的是，在允许第三方在程序运行时收集用户的语音数据时，表现得十二分慷慨。图罗亲身采访过的几个相关人士都表示，只要语音应用程序的所有者，在程序的隐私政策中声明有此类行为的存在（大多数人并不会仔细查看），就可以被允许以访问者登录账号的方式，来获得其身份和深入了解访问者的语音行为模式，甚至在某种情况下，还能够直接获取访问者语音的文本记录。

其次，智能语音设备实际上并不像“巨头”们宣称的那样，彻底拒绝定向的广告和信息流投放。图罗发现，亚马逊公司在其隐私政策中一个不起眼的角落，需要点击才能阅读的关于个性化广告的一个问答中，指出它会使用人们和智能助理的语音对话的文字转写稿，来进行受众“定位”和“画像”。

谷歌公司更加直白地在通用隐私政策中写道， 当用户使用谷歌技术的音频功能时，它会收集并使用声音和音频信息，进行个性化的定向营销。 图罗认为，谷歌公司的目的仍旧指向了使用语音分析结果，补充它为顾客所创建的“个人画像”。

这里的所谓“画像”，是基于语音的定向“个性化营销”，在当下和未来最重要的发展方向，即通过收集用户声音的生物识别特征（也就是“声纹”）和声音信息数据，来构建一个虚拟版本的你并提前预判你的选择和行为，以提供非常丝滑的个性化推荐和服务。

图罗书中终极版本的“画像”，甚至能比活生生的营销人员，更能基于你过往的语音和购买行为，来读懂你的“言外之意”和预判你真实的购买意图。而这样的“画像”也将彻底融入到生活之中，当你习惯性地用语音打开卧室灯、播放古典音乐时，就会被预判正在进行睡前阅读，再被不失时机地推送你可能感兴趣的书籍广告——如果真的到了人们在潜移默化中彻底不介意为便利让渡隐私的那一天。

图罗继续指出，在智能设备公司并不愿意彻底和收集行为“割席”来打消公众“监听”的猜疑背后，是行业内部彼此之间“抢跑”“画像”的猜疑链：“在不断变化的语音营销世界里，就连参与其中的公司，有时也不相信同行的保证。” 即使是巨头们，也有在竞争中落后的风险。

特别是在目前智能语音技术的 初期发展阶段 ，那些小公司和大众关注范围之外的公司“大肆利用声音来评估用户，却安然无事”，同时可能将它们收集的声纹和数据出售给数据交易商。在这样可能的被迫超速发展中，公司们都不想落后，“为了赢得未来出现的财富”，对于语音收集的实质上的“知情同意”基本上是难以实现的。

事实上，图罗访问的智能设备行业的内部人士们表示，目前人们对“监听”的有所疑惧，是被智能语音设备公司们所有意安排好的“相对蛰伏期”。

在目前的猜疑的冰山之下，公司们对“人们说话内容和说话方式”展开的分析， 远远比他们透露和展示出来的多。 他们等待着人们对语音设备运用规模的扩大，直到语音助手几乎融入到人们的生活中。那时，这些公司们才会进入“高速发展阶段”，将一系列关于人们的语音、人口统计特征、行为、心理统计特征和位置等数据，整合到前文所提到的近乎终极版的“画像”之中，让人们彻底习惯性地获得“个性化的购买建议、搜索结果、地图导航和广告”。

他将这种策略称之为“诱导式监控”，这是皮内洛皮·特鲁利诺（Pinelopi Troullinou）在她2017年的博士论文中所发明的概念，以描述企业通过积极向目标群体展现产品的吸引力特征，以抵消他们的顾虑，即使冒着被监控的风险，也认为购买和使用这些设备是值得的。正如特鲁利诺所指出的，“用户会被有关便利性、高效性和娱乐性的言论引诱，情愿交出个人数据，从而成为被监控的对象”。

而且，这条猜疑链一直蔓延到了考虑语音营销的商业公司之中，也就是人们在“监听”猜疑中矛头所指向的潜在“甲方”。图罗发现零售业的营销者们实际上相当怀疑和担心，生产智能语音设备的“巨头们”将在和他们的合作协议中找到漏洞，从而进行“数据偷窃”，反而拥有了他们所拥有的客户数据。

他引用了Market Watch网站的一篇报道，这篇报道指出，包括亚马逊在内的“巨头们”，本就是零售业最大的竞争对手，如果他们有可能在商店里偷听顾客的谈话的话，零售商当然会忧虑在商店里使用智能音箱。报道中，一位为零售业公司创建智能语音设备程序的首席技术官甚至透露，他的一些零售业的客户特别害怕这些情况的发生， 偏执地认为“巨头们”会收集有关他们的情报来对付他们 ，不断停滞和延缓开发语音应用程序的进程。

如何突破这样的猜疑链造成的内卷？图罗呼吁政府和立法进一步监管。在这本书中他所着力做的，就是让人们意识到智能语音技术的现状，意识到我们必须做些什么了。

本文来自微信公众号：经济观察报（ID：eeo-com-cn），作者：李佩珊