更新、挑错、识别假新闻,MIT推出维基百科AI编辑系统

钛媒体  •  扫码分享
我是创始人李岩:很抱歉!给自己产品做个广告,点击进来看看。  

更新、挑错、识别假新闻,MIT推出维基百科AI编辑系统

文丨学术头条

维基百科作为任何人都可以编辑的在线百科全书,需要大量的志愿者编辑花费大量时间精力来让每一个词条保持最新。虽然志愿者编辑有很多,但要保障每天成千上万的页面及时更新,仍是一件极具挑战的任务。

不久前,麻省理工学院的研究人员推出了一种新的 AI 系统,该系统可用于自动更新在线百科全书中的任何不准确之处,从而为人类编辑们提供帮助。

麻省理工学院计算机科学和 AI 实验的博士生 Darsh Shah 说道,“维基百科的文章需要不断更新,因此需要数百人来修改每篇文章,而 AI 可以自动完成修改,这极大提高了效率。”

研究人员提出了一种文本系统,该系统可精确定位并替换相关维基百科句子中的特定信息,同时使用类似于人类的书写和编辑方式的语言。

当人们在界面输入带有更新信息的非结构化句子时,AI 会在维基百科中搜索正确的页面和过时的信息,然后以类似于人类的语言风格呈现内容。

此前也存在许多其他可以自动进行维基百科编辑的机器人,但 Shah 说道,“这些工具更多的是基于规则,将一些狭义的信息放入预定义的模版中,然而编辑的任务更多的是需要对两个句子中相互矛盾的部分进行推理,然后生成连贯的文本句子。研究人员的模型解决了这个问题,通过输入一条非结构化的信息,模型以人性化的方式自动修改句子。”

AI 识别矛盾信息

识别两个单独的句子之间的矛盾信息,并将它们融合在一起,这对于人类而言是一项十分容易的任务,但对于机器学习而言却是一项新颖的任务。

例如原始的句子:“基金 A 认为活跃运营公司中的 42 种少数股权中有 28 种对集团特别重要”,而最新的信息则是:“基金 A 认为 43 个少数股权中有 23 个意义重大”。

根据这两个句子,系统将首先找到有关 “基金 A” 的相关维基百科文本,然而自动去除过时的数字 28 和 42,并用新的数字 23 和 43 替换它们。

更新、挑错、识别假新闻,MIT推出维基百科AI编辑系统

一般来说,该系统在包含句子对的流行数据集上进行训练,其中一个句子是声明,另一个是相关的维基百科的句子。每对都用三种方式进行标记:同意,表示句子匹配;不同意,表示存在矛盾的信息;中性,表示没有足够的信息可用于任何一个标签。

系统的目标是修改所有过时的句子,达到相应的要求,也要使所有不一致的句子对都达到 “同意”。因此,这就需要使用单独的模型来产生所需的输出。

该模型是事实检查分类器,预先将每个句子对标记为 “同意”、“不同意” 或 “中立”,重点关注 “不同意” 的句子对。与分类器一起运行的是一个自定义的 “中性屏蔽器” 模块,该模块可识别过时句子中的哪些词与声明中的句子相矛盾。它在过时的句子上创建了一个二进制 “掩码”,其中 0 放在最有可能需要删除的单词上,而 1 放在保留的单词上。

屏蔽之后,在过时的句子处使用两个编码器 - 解码器框架,对需要删除的单词(用 0 覆盖的单词)结合不同的信息来融合填补。

该模型与其他几种传统的文本生成方法相比,在更新事实信息时更加准确,其输出与人类写作更加相似。在一项测试中,研究人员根据模型的输出句子包含事实更新和匹配人类语法的程度对该模型进行了评分(从 1 到 5),该模型的事实更新平均得到达到了 4,语法匹配得分为 3.85,高于了其他所有传统方法。

研究人员希望未来 AI 能够自动完成整个过程,也就意味着它可以在网上搜索某个相关主题的最新新闻,并替换文本,自动化更新维基百科上过时的信息。

扩充数据集,消除误差

该研究还表明,当训练 “假新闻” 的检测器时,该系统可用于增强数据集,以消除偏见。

“假新闻” 是一种包含虚假信息的宣传方式,旨在博人眼球,误导读者或是引导公众舆论。这些部分检测器在同意 - 不同意对的数据集上进行训练,匹配给定的证据来验证真假新闻。在这些句子对中,声明可将某些信息与维基百科上的支持 “证据” 相比较,模型经过训练,通过反驳证据,将句子标记为 “假”,从而帮助识别假新闻。

但数据集往往带有意想不到的偏差。Shah 说道,“在训练过程中,模型按照人类的书面语言要求将某些语言标记为假例,而不必过多依赖相应的证据语句。这会降低模型在评估实际示例中的准确性,因为它不执行事实检查。”

因此,研究人员使用了相同删除和融合技术,来平衡数据集中的不同意对,并帮助减轻偏见,在某些 “不同意” 对中,他们使用修改后的句子中的虚假信息来重新生成伪造的 “证据” 支持句子,某些短句也同时存在于 “同意” 和 “不同意” 句子中,这将使得模型分析更多的特征,得到扩充的数据集。

研究人员利用这一方法将一种流行的假新闻检测器的错误率降低了 13%。

维基百科部署 AI 编辑

早在 2015 年,维基百科就构建了一个人工智能引擎,旨在自动分析维基百科的更改。

由于任何人都可以编辑维基百科,那么任何人都可以错误地添加虚假信息,破坏站点,所以最早的维基百科建立了严格的筛选制度,阻止了很多人加入维基百科的编辑行列。

Halfaker 是维基百科的资深研究科学家,他建立了自己的 AI 引擎来识别这种破坏行为,以更友好的方式提高新手的参与度。同时他也承认,“这项服务无法捕获所有破坏行为,但它可以捕获最多的破坏。”

Halfaker 的项目实际上是为了增加人们对维基百科的参与,而放到 5 年后的今天,新的文本系统的出现,可自动更新维基百科的信息,极大减少了志愿编辑者的工作,编辑者也朝着被淘汰的方向行走。

机器越来越智能,机器自动化替代人类工作也越来越普遍,人类是否会被机器替代也是当下的热点话题。有人预测 AI 和机器人技术将在未来 20 年内取代我们多达 47% 的工作,但同时也有人认为 AI 将创造大量新工作。

未来的事谁都说不准,我们唯一能做的是把握当下。

资料来源:
[1]https://www.siliconrepublic.com/machines/wikipedia-editors-ai-fake-news[2] https://www.sciencedaily.com/releases/2020/02/200212164647.htm[3]https://www.wired.com/2015/12/wikipedia-is-using-ai-to-expand-the-ranks-of-human-editors/

敬原创,有钛度,得赞赏


更新、挑错、识别假新闻,MIT推出维基百科AI编辑系统 钛粉32504 钛粉53982 LS邋遢道人 钛粉90243 钛粉11017
362人已赞赏 >
362换成打赏总人数362人赞赏钛媒体文章
  • 钛粉46303

    钛粉46303 赞赏了

    中国的暗网,迷失的闲鱼

    约5天以前
  • 钛粉32504

    钛粉32504 赞赏了

    实现高级自动驾驶,一定要用激光雷达吗?

    2020-07-11 09:15
  • 钛粉53982

    钛粉53982 赞赏了

    太空旅行离我们还有多远?亚轨道距离为零,地球轨道还...

    2020-07-10 12:45
  • LS邋遢道人

    LS邋遢道人 赞赏了

    黄峥辞任CEO,大佬们为什么都要退居幕后?

    2020-07-08 13:50
  • 钛粉90243

    钛粉90243 赞赏了

    英特尔“断货”浪潮信息背后:真的只是虚惊一场吗?

    2020-07-07 14:27
  • 钛粉11017

    钛粉11017 赞赏了

    美的空调回应格力举报:清者自清,这是第一次也是最后...

    2020-07-06 23:20
  • 钛粉09803

    钛粉09803 赞赏了

    比瑞幸造假更夸张,中概股金凰珠宝上演200亿黄金大...

    2020-07-06 03:54
  • 钛aKbf3i

    钛aKbf3i 赞赏了

    跑马圈地三年,新茶饮仍是一场无限规模游戏 | 钛媒...

    2020-07-05 02:57
  • 科技新视角

    科技新视角 赞赏了

    黄光裕的电商梦:砸数十亿战京东斗苏宁,为何还是输了...

    2020-06-30 09:52
  • 钛粉98650

    钛粉98650 赞赏了

    Telegram传奇:一个关于俄罗斯富豪、黑客、极...

    2020-06-30 03:55
  • 钛粉94590

    钛粉94590 赞赏了

    抖音小姐姐请“喝茶”背后,我们翻出来了一整条涉黄产...

    2020-06-25 22:53
  • 钛粉20375

    钛粉20375 赞赏了

    赵爷:呼吁重审王振华猥亵案

    2020-06-25 07:25
  • 钛ifWjWY

    钛ifWjWY 赞赏了

    张小龙在下一盘大棋

    2020-06-23 22:00
  • htEqmw

    htEqmw 赞赏了

    不要再拿“学历不重要”的谎言,骗正在“入海”的95...

    2020-06-20 16:06
  • 钛粉11567

    钛粉11567 赞赏了

    一位从业8年运营达人自述:从门外汉到COO我经历了...

    2020-06-20 00:17
  • hPqOpl

    hPqOpl 赞赏了

    一家仅成立5年的台湾公司,是如何为淘宝“装上”AR...

    2020-06-19 17:08
  • h3mAvN

    h3mAvN 赞赏了

    ARM中国“夺帅”罗生门:关乎中国芯片产业未来?

    2020-06-12 09:31
  • 钛粉57273

    钛粉57273 赞赏了

    王健林电商帝国梦碎:曾拉拢腾讯百度组局,一年换一个...

    2020-06-11 10:20
  • 钛粉65850

    钛粉65850 赞赏了

    【钛晨报】苹果成为首个市值超过 1.5 万亿美元的...

    2020-06-11 08:39
  • hZTD1B

    hZTD1B 赞赏了

    被B站“背叛”的二次元,正成为微博的基本盘

    2020-06-10 19:19
  • 在天空中自由翱翔的百灵鸟

    在天空中自由翱翔的百灵鸟 赞赏了

    抖音和快手,哪个平台更适合明星“再就业”?

    2020-06-10 14:44
  • 钛粉59182

    钛粉59182 赞赏了

    快手教育,能教育快手吗?

    2020-06-07 11:08
  • hfJF9q

    hfJF9q 赞赏了

    首发丨企鹅杏仁集团构建深圳城市模型,全面布局基层医...

    2020-06-04 08:38
  • 商长君

    商长君 赞赏了

    有颜值有科技,奥迪Q3轿跑正式上市 | 一线车讯

    2020-06-01 16:29
  • 钛粉10448

    钛粉10448 赞赏了

    有颜值有科技,奥迪Q3轿跑正式上市 | 一线车讯

    2020-06-01 16:29
  • 钛ispSfx

    钛ispSfx 赞赏了

    从高端走向平民,这位蔚来前高管想让每个人都玩得起赛...

    2020-05-30 22:33
  • 钛粉15606

    钛粉15606 赞赏了

    当线上票务,无票可卖

    2020-05-25 15:35
  • 钛粉58399

    钛粉58399 赞赏了

    当线上票务,无票可卖

    2020-05-25 15:34
  • 钛粉08710

    钛粉08710 赞赏了

    华为海思深入无人区

    2020-05-23 21:17
  • 钛粉79603

    钛粉79603 赞赏了

    美国“卡脖子”的技术清单中,EDA软件如何突围?

    2020-05-22 20:50
  • 钛粉63198

    钛粉63198 赞赏了

    凯风创投文纲:多数人看重医疗大平台机会,我更看重深...

    2020-05-22 16:48
  • 在天空中自由翱翔的百灵鸟

    在天空中自由翱翔的百灵鸟 赞赏了

    独家最全解密:全球新冠疫苗竞跑大冲刺 | 钛媒体封...

    2020-05-22 16:44
  • 在天空中自由翱翔的百灵鸟

    在天空中自由翱翔的百灵鸟 赞赏了

    Keep 完成8000万美元E轮融资,投后估值已超...

    2020-05-22 10:21
  • 钛粉15007

    钛粉15007 赞赏了

    瑞幸裁掉了毕业生的胆

    2020-05-21 21:27
  • 钛aEMs4A

    钛aEMs4A 赞赏了

    梁建章、董明珠、李彦宏......谁能站上《直播1...

    2020-05-18 11:06
  • 钛a1D389

    钛a1D389 赞赏了

    平安好医生深陷“抄袭门”,创业公司该如何跟大厂“做...

    2020-05-16 08:13
  • 钛a1D389

    钛a1D389 赞赏了

    平安好医生深陷“抄袭门”,创业公司该如何跟大厂“做...

    2020-05-15 10:07
  • 钛a1D389

    钛a1D389 赞赏了

    平安好医生深陷“抄袭门”,创业公司该如何跟大厂“做...

    2020-05-14 17:23
  • 钛粉46542

    钛粉46542 赞赏了

    平安好医生深陷“抄袭门”,创业公司该如何跟大厂“做...

    2020-05-13 21:54
  • 钛粉46664

    钛粉46664 赞赏了

    平安好医生深陷“抄袭门”,创业公司该如何跟大厂“做...

    2020-05-13 21:15
  • 钛粉46898

    钛粉46898 赞赏了

    平安好医生深陷“抄袭门”,创业公司该如何跟大厂“做...

    2020-05-13 21:08
  • hEobMD

    hEobMD 赞赏了

    平安好医生深陷“抄袭门”,创业公司该如何跟大厂“做...

    2020-05-13 21:02
  • 钛粉46484

    钛粉46484 赞赏了

    平安好医生深陷“抄袭门”,创业公司该如何跟大厂“做...

    2020-05-13 20:53
  • 钛粉46935

    钛粉46935 赞赏了

    平安好医生深陷“抄袭门”,创业公司该如何跟大厂“做...

    2020-05-13 19:47
  • 钛粉46434

    钛粉46434 赞赏了

    平安好医生深陷“抄袭门”,创业公司该如何跟大厂“做...

    2020-05-13 19:42
  • 钛粉14290

    钛粉14290 赞赏了

    平安好医生深陷“抄袭门”,创业公司该如何跟大厂“做...

    2020-05-13 19:38
  • 钛粉46939

    钛粉46939 赞赏了

    平安好医生深陷“抄袭门”,创业公司该如何跟大厂“做...

    2020-05-13 19:37
  • 钛粉46399

    钛粉46399 赞赏了

    平安好医生深陷“抄袭门”,创业公司该如何跟大厂“做...

    2020-05-13 19:30
  • hHbBsz

    hHbBsz 赞赏了

    平安好医生深陷“抄袭门”,创业公司该如何跟大厂“做...

    2020-05-13 18:08
  • 钛粉28499

    钛粉28499 赞赏了

    平安好医生深陷“抄袭门”,创业公司该如何跟大厂“做...

    2020-05-13 16:43
  • 查看精彩文章,打开钛媒体客户端
关闭弹窗

挺钛度,加点码!

  • ¥ 5
  • ¥ 10
  • ¥ 20
  • ¥ 50
  • ¥ 100

支付方式

确认支付
关闭弹窗

支付

支付金额:¥6

关闭弹窗
sussess

赞赏金额:¥ 6

赞赏时间:2020.02.11 17:32

关闭弹窗 关闭弹窗

更多精彩内容,关注钛媒体微信号(ID:taimeiti),或者下载钛媒体App

随意打赏

提交建议
微信扫一扫,分享给好友吧。