AI幻觉真有那么可怕么？以及，致歉

虎嗅网 • 3天前扫码分享

我是创始人李岩：很抱歉！给自己产品做个广告，点击进来看看。

一

我曾经在某个app上看到过一则关于第二次海湾战争后的旧闻。这则旧闻本身，是有点让我吃惊的。但到底讲了什么，和本文关系不大，我就不展开了。

新闻里有个细节，说当事人离开了伊拉克并流亡黎巴嫩且后悔在伊拉克的所作所为。

我就这个细节，询问了DeepSeek：有这回事么？

接下来看到的，就让我犯迷糊了。

在深度思考的小号字体文本中，DeepSeek说，这个事没有查到其它媒体的报道作为证据。

然而，在正式结果的大号字体文本中，DeepSeek说，有这回事，bbc、路透社都报道了。

思考时还有待查证，出结果时却确有其事了，神奇吧？

二

这极有可能就是所谓的AI幻觉——所谓AI在一本正经地胡说八道。

胡说八道的意思很好懂，就是编故事呗。但一本正经四个字是什么意思，其实很值得说道说道。因为如果你把一本正经理解为煞有介事，等于没理解。这两个成语同义。

大模型在文本输出时，有一个很关键很重要的概念，即token。基本上可以理解为一个字或一个词（比如说，在中文里，川会被视为一个token，普也会被视为一个token，但川普不是两个token而是一个token）。在文本输出的过程中，当AI输出了token a，就会判断下一个token b该输出什么。

所以有时候我们会说，大模型说话，是一个词一个词蹦出来的，大致就是这么个意思。

我有个朋友，称之为“大续写模式”。我觉得他这个说法非常好。改变了我对大模型以前的“大搜索模式”的理解。确实，一开始我以为大模型就是在数据库里搜各种信息，然后组装输出。但显然这个大搜索模式的理解是错误的。一个token一个token往外蹦，可不就是大续写模式。

所谓下一个token该输出什么，这个该字，就是规则了。大模型是按照什么规则去一个token一个token往外蹦的呢？

三

其实是概率。token a后面接token b的概率超过接其它token的概率，那就蹦出b。token a、token b蹦出来后再蹦c的概率，超过其它所有token的概率最大，那就c。

每一次蹦token，都是一次概率的运算。

现在我们来看看文头讲的那个旧闻。

关于当事人离开伊拉克流亡黎巴嫩并后悔，其实有三个可能：1、有大量媒体报道过，DeepSeek能搜DeepSeek也会搜到。3、有少量且不那么权威的媒体说过，DeepSeek搜到。但大量主流媒体提都没提过（也就是没有明确辟谣过的文本），DeepSeek就搜不到。

现在，DeepSeek这个按照概率蹦token的大模型，它怎么输出是“该”的呢？

按照它对关于第二次海湾战争大量新闻报道的学习，它会得出这样一种概率：使用此事怎么怎么如何如何之后，来一个经bbc、路透社报道的写作手法，然后得到重点传播，是概率最大的。创造大模型的人类告诉它（即设定规则），你使用这样的大续写模式，是最符合人类期待的。

但DeepSeek并没有搜到bbc、路透社关于“当事人离开伊拉克流亡黎巴嫩并后悔”的报道，但它也没有搜到bbc、路透社关于“关于当事人离开伊拉克流亡黎巴嫩并后悔”的辟谣报道——如果搜到，倒是可以直接输出了。

于是，它编造了据bbc、路透社报道——因为这么续写，概率最高。

这就是一本正经的由来。所谓一本正经，也是人类的一本正经。

幻觉就是：当bbc、路透社从来没说过无，它就幻想成bbc、路透社说过有。

似乎，AI能处理是，也能处理否，但就是处理不了“空”。

四

AI幻觉就是编故事，还编得有模有样，所以比较容易忽悠人。

这引起了很多论者的注意，并大声呼吁。人类啊，要警惕啊，我是爱你们的！

当然也没啥错。

但我想说的是，恐怕制造幻觉最多最猛也最有效的，怕还是人吧。

就前两天，我就看到了一起。

五

关于司马南到底要出多少血，我要向各位读者致歉，因为我上一篇文章搞错了。我也要就南都的标点符号用错了向该媒体道个歉，你们没用错——但我并没有要向南都完全道歉的意思，因为它的标题是错的。

我到这个新闻的最源头，也就是北京税务局网站上截屏如下：

在文本中，赫然是个顿号：追缴、滞纳、罚款共计926.94万元。这就是司马南的总出血量，而不是1400万。

人呐，确实不能太兴奋，或者太兴奋的状态下用手机赶紧去蹭流量。这是要出事的。

我确实主观上愿意相信司马南出血量越大越好，所以当媒体的标题是“司马南罚款900万”，以及文本里有些小矛盾，我依然选择相信了标题，并由此推断司马南要出血1400万。

根据北京税务局这个最权威的信息，现在这个结论基本是靠谱的：

1、补税：462.43万以及75.32万，合起来537.75万。

2、罚款：是按照0.5倍来罚的，也就是268.875万。

3、滞纳金：120.315万。

所以，这两天中国媒体们制造了一个巨大的幻觉：司马南被罚了900万。我所见到的媒体标题全是这个。

但事实是，压根没有的事。

如果你要把滞纳金也视为罚款，那就是400万不到。如果滞纳金不算，狭义上的罚款，那就是司马南被罚近300万，或者逾250万。

罚酒三杯，略施薄惩。

什么？追缴税费款也算罚款？好的，我语文是体育老师教的。

六

有时候吧，我看到很多人在那里讨论AI好可怕，我们要警惕未来被AI统治，我就会想起《爱情公寓》里的某一集。

胡一菲吓唬张伟，我们人类未来是要被机器人统治的呀。张伟的回答是如此犀利而富有洞见：你们觉得，出bug，是机器概率高，还是人类概率高？