用魔法打败魔法：抓住AI枪手，ChatGPT检测器“千呼万唤始出来”

钛媒体 • 2年前扫码分享

用魔法打败魔法：抓住AI枪手，ChatGPT检测器“千呼万唤始出来”

品玩

· 2023.02.01 12:45

微信扫码

463

道高一尺，魔高一丈。

用魔法打败魔法：抓住AI枪手，ChatGPT检测器“千呼万唤始出来”

图片来源@视觉中国

钛媒体注：本文来源于微信公众号硅星人（ID:guixingren123），作者 | VickyXiao，编辑 | VickyXiao，钛媒体经授权发布。

OpenAI的聊天机器人ChatGPT自从发布以来，正变得越来越强大，从接受普通网友的“调戏”，到“低空飞过”明尼苏达大学法学院和沃顿商学院的课程考试，甚至通过了医学考试，以至于开始成为学校老师的“公敌”。如果不加以限制，ChatGPT将会变成史上最强大的作弊工具——帮助学生们写作业，甚至是完成考试论文。

正如我们之前所说的，越来越多的学校和老师已经表达了对ChatGPT作弊能力的担忧。纽约市和西雅图的公立学校已经禁止学生和教师在学区的网络和设备上使用ChatGPT。

但是，靠着老师和学校的盯梢，想要让学生们避开ChatGPT的诱惑，几乎是不可能的事。所以，打开了潘多拉盒子的OpenAI，只好自己出马，用魔法来打败魔法。

用魔法打败魔法

今天，OpenAI官宣推出一个新工具，立马又上了头条：一个名为AI Text Classifier 的文件检测器，来帮助人们检测一段文本是由人类自己创作，还是由AI编写的。

不过有点戏剧性的是，这个检测器也同样是基于GPT模型。根据OpenAI的介绍，这个AI文本分类器是一个经过微调的GPT模型，可以检测一段文本是否是来自于市面上的各种AI工具，包括但不限于ChatGPT。

该工具包含一个文本框，用户可以在其中输入至少 1000 个字符长的文本，点击提交后，每个文档会被判断为“非常不可能”、“不太可能”、“不清楚是否是”、“可能是”AI生成的。

根据OpenAI的说明，这个检测器也有不少限制，包括：

• 至少需要 1,000 个字符，即大约 150 - 250 个单词。

• 结果也并不能保证完全准确；它可能会错误标记 AI 生成的文本和人工编写的文本。

• 人类用户可以简单编辑 AI 生成的文本，以避开检测。

• 检测器有可能会错判儿童写的文本和非英语文本上，因为它主要是针对成人书写的英语内容进行训练的。

那到底ChatGPT和ChatGPT检测器，谁厉害？硅星人进行了测试。

我们先要求 ChatGPT 写一篇超过1200字的关于无人驾驶汽车的文章，然后全文输入检测器，检测器很准确地识别出来，将其判断为“可能由 AI 生成”。

图片来源：ChatGPT

但是随后，我们又用ChatGPT 生成了一篇同样主题的972字的文章，自己在文章后加入了一两句无关紧要的话，以满足检测器1000字的要求，就这样小小的操作，检测器就受到了迷惑，返回的结果表示“无法判断是否由AI生成”。

在硅星人的小样本量测试上，这个检测器虽然有一定程度的准确性，但是要迷惑它，对于狡猾的人类来说，简直是轻而易举。

OpenAI 显然也意识到了这个工具的局限性，因为它在博客里强调，不要仅仅凭借这个检测器来确定内容的真实性，“在确定文档是否由 AI 生成时，检测结果可能会有所帮助，但不应成为唯一的证据。”

OpenAI在这个检测器里，使用了来自多个来源的 AI 生成的文本样本和人工编写的样本来训练模型。

AI 生成的文本样本方面，他们使用了包括 OpenAI在内的 5 个不同机构开发的 34 个模型生成的文本来进行训练。而人工编写的文本有三个来源，包括一个新的维基百科数据集、2019 年收集的WebText 数据集，以及训练InstructGPT时收集的部分数据。

OpenAI也对检测器在进行测试时的准确性进行了详细说明：

-大约 5% 的人工撰写的文本和 2% 的人工智能生成的文本，被判定为“非常不可能由 AI 生成”；

-大约 15% 的人工编写文本和 10% 的人工智能生成的文本，被归为“不太可能是 AI 生成”；

-大约 50% 的人工编写的文本和 34% 的人工智能生成的文本，被归为“不清楚是不是AI生成”；

-大约 -21% 的人工编写的文本和 28% 的人工智能生成的文本被归为“可能是 AI 生成”；

-大约 9% 的人工编写的文本和 26% 的人工智能生成的文本，被归为“可能由 AI 生成”。

可以看出来，想要靠这个检测器全部抓住AI枪手，可能真的有些困难了。

检测器成为刚需

正如前文所说的，ChatGPT在学校里已经如野火一般蔓延开来。一款简单易用的检测器成为老师们翘首以盼的东西。

早在OpenAI推出自己的检测器之前，一位年仅22岁的普林斯顿大学的学生Edward Tian，就自行开发了一款检测器——GPTZero。

同样的，用户只需将文本复制并粘贴到GPTZero中。检测器会从文本的复杂性、创造性和变化性几个方面来进行评估。然后，GPTZero 会给出一个分数，并最终得出一个结果：该文本是由 ChatGPT 生成的，还是由人类撰写的。

Edward Tian 主修计算机科学，辅修新闻学，他利用寒假的一部分时间创建了 GPTZero，可以“快速有效地”破译一篇文章是人类还是 ChatGPT 撰写的。他在Twitter上称，创建该机器人的动机是为了对抗他认为越来越多的 AI 剽窃行为。

图片来源：Twitter

为了确定文章是否由机器人编写，GPTZero 使用两个指标：“困惑度（Perplexity）”和“突发性（Burstiness）”。

一个指标是用困惑度衡量文本的复杂性。如果 GPTZero 对文本感到困惑，那么该文本具有很高的复杂性并且更有可能是人工编写的。然而，如果文本对机器人来说更熟悉——因为它已经接受过此类数据的训练——那么它的复杂性就会很低，因此更有可能是由 AI 生成的。

另外一个指标是用突发性比较句子的变化。人类倾向于以更大的突发性写作，例如会综合使用一些较长或复杂的句子与较短的句子，而AI 的句子往往更统一。

1 月 3 日，该网站上线，一周内立马就有超过 3万人试用，以至于程序都崩溃了，更有超过 700 万人在 Twitter 上观看了演示视频。老师们也马上注意到这款工具，纷纷联系他。现在，他正在开发一款专为教育工作者设计的工具，已经有3.3万名教师加入了这款还未开发完成的工具的等待名单（waitlist）。

当然，Edward Tian 也承认，他的检测也并非百分之百准确，一些用户也报告了 GPTZero 检测的错误结果，不过他说他仍在努力提高模型的准确性。

开源 AI 社区Hugging Face 也推出了一种工具来检测文本是否由 GPT-2 创建。GPT-2 是用于开发 ChatGPT 的 AI 模型的早期版本。南卡罗来纳州的一位哲学教授用这个工具抓获了一名提交了 AI 编写的作业的学生。

OpenAI 自己也已表示将致力于从源头上提高AI生成文本的透明性。此前，OpenAI 专注于 AI 安全的研究员 Scott Aaronson 透露，他们已经在研究怎么用“不易察觉的秘密信号”，为 GPT 生成的文本“加水印”，以让人们识别其来源。

另外，根据新闻网站Neowin的消息，包括斯坦福大学在内的一些机构，联合提出一种名为DetectGPT的新方法，来区分AI生成的文章。

在相关网站上，该综述称，DetectGPT 的这种方法不需要训练单独的分类器、收集真实或生成的段落的数据集，或显式地为生成的文本加水印，就可以大检测一段文本是否为机器编写。

如果该综述为真，那很有可能人类终于可以再次抓住AI的小辫子，把主动权重新掌握在自己手中。