AI幻觉真有那么可怕么?以及,致歉
一
我曾经在某个app上看到过一则关于第二次海湾战争后的旧闻。这则旧闻本身,是有点让我吃惊的。但到底讲了什么,和本文关系不大,我就不展开了。
新闻里有个细节,说当事人离开了伊拉克并流亡黎巴嫩且后悔在伊拉克的所作所为。
我就这个细节,询问了DeepSeek:有这回事么?
接下来看到的,就让我犯迷糊了。
在深度思考的小号字体文本中,DeepSeek说,这个事没有查到其它媒体的报道作为证据。
然而,在正式结果的大号字体文本中,DeepSeek说,有这回事,bbc、路透社都报道了。
思考时还有待查证,出结果时却确有其事了,神奇吧?
二
这极有可能就是所谓的AI幻觉——所谓AI在一本正经地胡说八道。
胡说八道的意思很好懂,就是编故事呗。但一本正经四个字是什么意思,其实很值得说道说道。因为如果你把一本正经理解为煞有介事,等于没理解。这两个成语同义。
大模型在文本输出时,有一个很关键很重要的概念,即token。基本上可以理解为一个字或一个词 (比如说,在中文里,川会被视为一个token,普也会被视为一个token,但川普不是两个token而是一个token) 。在文本输出的过程中,当AI输出了token a,就会判断下一个token b该输出什么。
所以有时候我们会说,大模型说话,是一个词一个词蹦出来的,大致就是这么个意思。
我有个朋友,称之为“大续写模式”。我觉得他这个说法非常好。改变了我对大模型以前的“大搜索模式”的理解。确实,一开始我以为大模型就是在数据库里搜各种信息,然后组装输出。但显然这个大搜索模式的理解是错误的。一个token一个token往外蹦,可不就是大续写模式。
所谓下一个token该输出什么,这个该字,就是规则了。大模型是按照什么规则去一个token一个token往外蹦的呢?
三
其实是概率。token a后面接token b的概率超过接其它token的概率,那就蹦出b。token a、token b蹦出来后再蹦c的概率,超过其它所有token的概率最大,那就c。
每一次蹦token,都是一次概率的运算。
现在我们来看看文头讲的那个旧闻。
关于当事人离开伊拉克流亡黎巴嫩并后悔,其实有三个可能:1、有大量媒体报道过,DeepSeek能搜DeepSeek也会搜到。3、有少量且不那么权威的媒体说过,DeepSeek搜到。但大量主流媒体提都没提过 (也就是没有明确辟谣过的文本) ,DeepSeek就搜不到。
现在,DeepSeek这个按照概率蹦token的大模型,它怎么输出是“该”的呢?
按照它对关于第二次海湾战争大量新闻报道的学习,它会得出这样一种概率:使用此事怎么怎么如何如何之后,来一个经bbc、路透社报道的写作手法,然后得到重点传播,是概率最大的。创造大模型的人类告诉它 (即设定规则) ,你使用这样的大续写模式,是最符合人类期待的。
但DeepSeek并没有搜到bbc、路透社关于“当事人离开伊拉克流亡黎巴嫩并后悔”的报道,但它也没有搜到bbc、路透社关于“关于当事人离开伊拉克流亡黎巴嫩并后悔”的辟谣报道——如果搜到,倒是可以直接输出了。
于是,它编造了据bbc、路透社报道——因为这么续写,概率最高。
这就是一本正经的由来。所谓一本正经,也是人类的一本正经。
幻觉就是:当bbc、路透社从来没说过无,它就幻想成bbc、路透社说过有。
似乎,AI能处理是,也能处理否,但就是处理不了“空”。
四
AI幻觉就是编故事,还编得有模有样,所以比较容易忽悠人。
这引起了很多论者的注意,并大声呼吁。人类啊,要警惕啊,我是爱你们的!
当然也没啥错。
但我想说的是,恐怕制造幻觉最多最猛也最有效的,怕还是人吧。
就前两天,我就看到了一起。
五
关于司马南到底要出多少血,我要向各位读者致歉,因为我上一篇文章搞错了。我也要就南都的标点符号用错了向该媒体道个歉,你们没用错——但我并没有要向南都完全道歉的意思,因为它的标题是错的。
我到这个新闻的最源头,也就是北京税务局网站上截屏如下:
在文本中,赫然是个顿号:追缴、滞纳、罚款共计926.94万元。这就是司马南的总出血量,而不是1400万。
人呐,确实不能太兴奋,或者太兴奋的状态下用手机赶紧去蹭流量。这是要出事的。
我确实主观上愿意相信司马南出血量越大越好,所以当媒体的标题是“司马南罚款900万”,以及文本里有些小矛盾,我依然选择相信了标题,并由此推断司马南要出血1400万。
根据北京税务局这个最权威的信息,现在这个结论基本是靠谱的:
1、补税:462.43万以及75.32万,合起来537.75万。
2、罚款:是按照0.5倍来罚的,也就是268.875万。
3、滞纳金:120.315万。
所以,这两天中国媒体们制造了一个巨大的幻觉:司马南被罚了900万。我所见到的媒体标题全是这个。
但事实是,压根没有的事。
如果你要把滞纳金也视为罚款,那就是400万不到。如果滞纳金不算,狭义上的罚款,那就是司马南被罚近300万,或者逾250万。
罚酒三杯,略施薄惩。
什么?追缴税费款也算罚款?好的,我语文是体育老师教的。
六
有时候吧,我看到很多人在那里讨论AI好可怕,我们要警惕未来被AI统治,我就会想起《爱情公寓》里的某一集。
胡一菲吓唬张伟,我们人类未来是要被机器人统治的呀。张伟的回答是如此犀利而富有洞见:你们觉得,出bug,是机器概率高,还是人类概率高?