深入脸书、推特、谷歌,为捍卫社交环境,他们都做了点啥?
当您在手机上注册Facebook时,这款软件所做的远不仅是向您提供来自您的朋友和家人的最新动态和照片。在后台,它正在利用手机的陀螺仪来探测您细微的动作,甚至包括您的呼吸。它会记录您点击屏幕的速度,甚至可以探测到您手机的握持角度。
这听起来的确让人毛骨悚然。其实这些只是Facebook验证注册者是人类而不是每天试图入侵社交网络的数千万机器人的一些方式。
Facebook的这些做法凸显了科技公司与机器人入侵者之间愈发激烈的斗争,这些机器人入侵者可能导致政治混乱并损害公司的公众信任。 Facebook并不是唯一的受害者:推特已在周三开始删除数百万个屏蔽帐户,谷歌也正试图在YouTube上消除恶意钓鱼网站。
他们相信,人工智能将会是他们公司的救赎之路。 Facebook首席执行官马克·扎克伯格(Mark Zuckerberg)多次指出人工智能是他在国会和公司F8开发者大会上作证时对其社交网络缺陷的解决方案。 谷歌希望成为人工智能主导公司,而推特也希望利用这项技术来消灭钓鱼网站。
“它已经成为日常生活中的一个基本组成部分,”技术政策类非营利组织Open MIC的执行董事Michael Connor说。 “人工智能已经改变了我们听音乐的方式,改变了我们处理医疗问题的方法,甚至改变了我们的驾车方式。”
AI已经被视为可以解决关于互联网所有麻烦问题的万灵药。毕竟,没有任何一个人或一个团队可以处理来自数十亿用户的大量数据。但它是如何做到的? CNET将深入了解Google,推特和Facebook如何使用AI来控制如此大规模的滥用行为。
人工智能最适合用来处理大量数据 ——Facebook,谷歌和推特在这方面没有任何不足。例如,如果您正在训练机器人查找假新闻,那么您将需要会收集大量假新闻帖子,并提供算法来查找类似的帖子。
这台机器的学习过程其实就像教新生婴儿对与错的区别的过程,Sift Science的信托和安全建筑师Kevin Lee说。
但是过于隐蔽的滥用行为很难被算法判断出来,或者有时候,算法会将用户的正常行为判断为滥用行为,所以人工智能有时也会出错。当审核过程透明度很低时,人们会对此持怀疑态度。
但是对付机器学习造成的失误,我们也有一套处理方法。
网络犯罪分子越来越精明。 当他们在Facebook上创建账户时,他们使用的机器人就像蜂巢里的蜜蜂一样多。这些机器人会使用多种技巧来入侵庞大的社交网络。他们会使用虚假的IP地址,放慢处理速度使之与人类操作速度相近,并使用数字掩码入侵注册。
但幸运的是他们仍然无法伪造人类用户进行注册。
庞大的社交网络一直依赖外部AI资源以及自己的团队来帮助它拒入侵机器人于门外。 其中一个AI外部资源来自以色列创业公司Unbotify,两位Unbotify的知情人员证实,该公司正在与Facebook就检测机器人项目进行合作。
初创公司产品和运营副总裁Eran Magril表示,Unbotify是依据设备上的行为数据而运行的,例如您注册帐户时手机的移动速度。该算法之所以能够识别出这些特点,是因为这是根据成千上万的工作人员不断点击摇摆手机测试而设计出来的。机器人虽然可以伪造IP地址,但是它们不能伪造一个真实的人类用户与设备进行的物理交互。
Magril拒绝透露Unbotify与Facebook的关系,只表示该公司与主要的社交网络正在进行合作。而Facebook也拒绝对Unbotify发表任何评论。
Facebook试图通过将其内容审核团队拓展至20,000名员工来抵御机器人这一祸害。 尽管如此,机器人用户还是巨大的:5月份,Facebook宣布在2018年的前三个月删掉了5.83亿个假账户。此数据阐述了人类在人工智能中只能扮演配角的原因。
“每天都有数以万计的账户被删除,” Lee说。 “绝大多数删除工作是由AI而不是人类完成的,真是谢天谢地,我们有AI这么方便的工具。”
Unbotify能够通过在客户应用程序中写入的代码来检测这些类型的动作。 Magril强调,该公司不收集私人信息,只收集不包括姓名和个人识别信息的行为数据。但社交网络的前团队负责人Lee表示,利用行为数据不是Facebook阻止机器人的唯一途径。
该公司还依靠AI根据一台设备上的帐户数量以及创建后的账户活动来自动判断帐户是否是机器人账户。他表示,如果一个账户注册后,并在一分钟内发送超过100个朋友请求,那么Facebook的人工智标记该帐户为机器人账户。
它也知道一台设备上有多少个不同的帐户。Lee说,大部分时间,欺诈者都会在一台设备上拥有多个僵尸账户。而通常情况下,正常用户一般会在多个设备上拥有一个Facebook帐户。
Facebook也依靠AI来阻止假新闻。此功能是将一些经常引起算法的关键内容列为问题内容来实现的。
今年3月,该社交网络表示,他们正在扩大其事实核查计划,在核查一系列的模因宣传之后,审核内容将包括图像和视频,而不是恶作剧文章。其检查员将与法新社(Agence France-Presse)和美联社等新闻机构合作。
根据创始人Or Levi的说法,这些事实检查正在使用AdVerif.ai的AI工具。它会查找已标记的图像并执行反向图像搜索,以查看该图像发布的其他位置,以及该图像显示的内容是否被修改过。例如,以前Facebook已经抓住了一张NFL(美式橄榄球联盟)运动员烧毁美国国旗的假图片。 AdVerif.ai记录了该图像,并反向搜索它的起源,同时能够告诉检查员这是张被修改出来的图片。
Levi说:“我们每天都在审核数百到数千张照片。我们到原始图像,然后发现其中的大部分都能确定该图像是被修改过的。”
Facebook News Feed产品专家Sara Su在周三的新闻发布会上表示,Facebook依靠第三方事实检查员来帮助其筛选恶作剧内容和虚假信息。
Su 说“当你构建机器学习分类器来识别某些特别虚假恶劣的内容时,你会需要大量的训练数据。在这种情况下,来自我们第三方事实检查者的评级是这些分类器真正重要的基础事实来源。”
与Facebook不同,Twitter更倾向于人类与AI一起扮演重要的角色。这是因为他们认为在言论自由和健康对话之间必须保持微妙的平衡。
然而,骚扰是困扰推特的最大问题之一,首席执行官Jack Dorsey对该问题的解决做出了一次又一次的承诺,但实际上仍未解决。推特上流行的钓鱼行为非常猖獗,据报道,它甚至在2016年阻碍了推特与迪士尼之间的交易。
虽然推特也使用AI来阻止机器人注册入侵,但它试图保留开放平台,这意味着它不能完全依赖AI来处理钓鱼行为。推特的健康产品经理David Gasca在接受采访时说,虽然垃圾邮件对推特的AI来说很容易就能追踪和删除,但骚扰却不同。
在采取任何行动之前,每个问题帖子总会被用户看到。
Gasca表示:“自动规则在某些情况下发挥作用,但在其他情况下,会产生很多细微差别,特别是在推特上,各种形式的对话都有各种背景内容。”
通常,数百万的推特用户可以帮助培训其人工智能的能力。推特公司收集有关帐户静音、屏蔽、报告、转发、喜欢或回复的频率的信息。
自动规则在某些情况下发挥作用,但在其他情况下,会产生很多细微差别
例如,AI可以识别被其他50个人屏蔽的帐户,并将其标记提交给推特的版主以获得更快的处理。
这意味着推特的AI检查对每个人都不同——取决于你进行交流的用户以及你忽略的用户。 AI能够区分正面和负面的交互,并且特别有助于改进推特的用户体验。
Gasca 表示:“你屏蔽的用户和我屏蔽的用户肯定不同,这样子就可以为每个用户的阈值和容差创建模型。”
如果你不断屏蔽其他用户,推特的算法之后就会开始过滤掉之后推送中的类似内容。这样子你就再遇到你不喜欢的内容了。
Gasca表示,自推特实施这一新方法以来,新互动的屏蔽率下降了40%。
“这是一项庞大的人工智能项目,此项目能够在简单的提示之后预测特定用户是否会屏蔽某个陌生人。”加斯卡说。
人们很容易忘记,以其视频内容而闻名的YouTube也是一种独创的社交网络形式,在其评论部分钓鱼内容也同样泛滥。 这就是为什么YouTube使用由Alphabet's Jigsaw开发的Perspective AI管理检查工具,也同时提供给用户使用。
Perspective旨在筛选恶意评论,以对付网上大量的骚扰信息。AI会自动标记它判定会危害对话内容的评论,并提交给版主选择是否要删除这些评论。
Jigsaw产品经理CJ Adams表示,AI需要检查数百万条评论并将其提供给成千上万帮助标记它们的人。团队们对每一条评论进行判定,告诉AI该评论是垃圾信息、骚扰信息或者是淫秽内容。
该算法从标签标记中得到学习改进,并在实际操作中进行类似的应用。Adams说,Perspective不会自动删除,而是让人们做最后的决定。
Adams表示:“它也会犯错误,所以AI不适合自主决策,但它带来的帮助就像是把大海捞针的范围缩小到手中一把干草这么小一样。”
Perspective通过在合作网站上的评论中获得其训练数据,比如纽约时报和维基百科。这与2017年的首次亮相时的能力相去甚远,当时AI还无法区分垃圾信息和体育网站上的骚扰信息。之所以能够取得这一进展,是因为对系统提出的许多意见,使其进行了进一步的学习改进。Adams表示,它现在知道“大都会队(一支纽约橄榄球队)差劲”并不总是意味着有人受到攻击。
Perspective依赖于不断地接受培训学习,以并保护自己免受钓鱼内容的侵害。当人工智能首次启动时,Adams说“大量的滥用行为”都来自4Chan(类似论坛的一个讨论区),这些内容一直在试图欺骗AI算法。
“他们会输入可怕的东西并说它没有问题,企图重新训练我们的AI并欺骗它,”他说。但是Perspective的团队已经在采取行动了,团队判定认为这些评论是不符合规范的。
所以它终还是帮助了谷歌AI发展,使它能够利用这些数据来阻止以后的钓鱼内容。
“我们得到的是这样大量的滥用内容,这些对于我们来说反而是很好的训练材料,” Adams说。“所以我们最后还是应该对你们4Chan表示‘感谢’。”
Machine tuning
科技公司可能对AI有很高的评价,但这并不意味着AI没有风险。在7月4日,根据Facebook的AI算法判断《独立宣言》的部分内容存在仇恨言论,而错误地删除了一个帖子。虽然这篇文章因强烈反对而被迅速恢复,但其他许多被误删帖子的人就没有那么幸运了。
无论对一个多么强大的AI来说,误删帖子都是一个严肃的挑战。哪怕只有1%的出错概率,想想Facebook上有20亿用户,YouTube上有10亿用户,这结果是仍有数以千万计的有害内容或机器人账户在逍遥法外。
数字公民联盟关于恐怖主义内容和社交媒体的报告的首席研究员Eric Feinberg说:“即使AI劫持了99%,也有1%的有害内容被人们所接触,其后果将是来自现实世界的攻击。”
他的团队在12月和1月发现了55个ISIS账户并向Facebook报告。Feinberg表示,Facebook并没有删除其中的24个账户,声称它并没有违反Facebook的服务条款,即使这些账户是在发布支持恐怖主义的内容。
科技公司了解这些问题,但也认识到他们的审核工具已经不能应付平台上的问题了。 一旦你接触到了这么多用户,滥用的可能性就会随之上升。
在这么大的规模下,尽管会出现失误,AI是处理问题的唯一方法。科技公司希望算法能够从中进一步学习并改进。
“Facebook实际上无法聘请足够的人来做这件事,”Lee说。他将人工智能与工业革命的转变进行了类比。“你必须依赖机器。并不是所有东西都是要亲手完成的,虽然那也没关系。”
AD: 8月3日,北京四季酒店!猎云网将与您相约“智变新金融——猎云网2018金融科技产业创新峰会”,共同探讨前沿技术,洞悉金融智变!