大模型再怎么“胡说八道”,也不像人类的胡说八道那么恶劣
自从生成式AI崛起以来,经常有人传播一个观点:AI大模型的“胡说八道” (学名是“大模型幻觉”) 会导致整个互联网充斥垃圾信息,最终毁掉人类的知识体系。当初ChatGPT爆红之后,以及最近DeepSeek爆红之后,都有大量的专业媒体和自媒体,像鹦鹉学舌一样,不断重复着上述说法。就在昨天,我的朋友圈里又有好几个人转发了类似的文章。鉴于这类文章内容大同小异,看个标题就知道内文在写什么了,所以我没有打开阅读,今后应该也不会阅读。
作为一个GPT/DeepSeek的双料重度用户,我当然知道“大模型幻觉”的威力。我是历史学爱好者,经常跟AI讨论历史问题,要求AI帮我收集史料。大约半年前,我问了GPT-4o一个问题:“清朝初年的佟佳氏家族,在康熙年间一度有‘佟半朝’之称,但是自从雍正年间隆科多被查办、乾隆年间庆复被赐死之后,似乎就远离历史舞台了。这个家族在清朝中后期还出过名人吗?”
十几秒后,GPT-4o告诉我:“隆科多、庆复先后获罪之后,佟佳氏确实大不如前,但是瘦死的骆驼比马大,还是出了一些中高层官员,例如:乾隆时期的副都统佟世荣、晚清的内务府官员佟永德、晚清的八旗领队大臣佟志和等。在此附上他们的简历 (下略) 。”
我马上发觉不对劲:佟佳氏是一个“满洲化”程度很深的汉军旗家族,起名习惯也逐渐采纳了满洲的“称名不举姓”,像隆科多、庆复都是很典型的满洲人名,怎么到了晚清反而全是汉化姓名?而且,诸如佟永德、佟志和之流,不但《清史稿》查无此人,在所有主流搜索引擎都搜不到。于是我再次询问:“你说的这几个人,我没有找到任何相关史料,你的信息来源是什么?”
GPT-4o宣称自己的信息来源是《清史稿》和《八旗通志》。我明确表示,在这两部书中找不到上面几个名字,于是它终于认错了:“不好意思,这些人在历史上确实不存在。佟佳氏在清朝中期以后确实没有出现值得一提的人物。”无论如何,我还是基本达到了目的,尽管我差一点点就上当了。
在想象力之深厚、编段子之狂野方面,DeepSeek似乎比GPT有过之而无不及,这可能是由于其对齐机制 (Alignment) 与GPT不同。所以有些人很喜欢让DeepSeek写小说、写同人文;但由于个人审美口味不同,我对它编的故事不太感冒,还是更喜欢看GPT编故事。如果我们隐去这些故事的虚构属性,把它当做真实资料贴到网上,确实能够骗住一大批人,就连相关领域的专业人士也难以免俗。
由此回到了本文开头的那个问题:大模型如此擅长“一本正经地胡说八道”,它会毁掉人类的知识体系吗?
我的答案很简单: 人类的知识体系还轮不到大模型来摧毁,因为人类自己胡说八道的能力远胜于大模型,其影响也远远更恶劣。 大模型只是胡说八道的效率比较高,人类则早已把胡说八道发展成了一种“艺术”,不仅是一本正经地胡说八道,而且是心安理得地胡说八道。作为一个接受过高等教育,而且在投资行业从业多年的人,我的记忆中留下了无数“人类胡说八道”的高光时刻;我自己当然也不能免俗。下面说说让我印象最深刻的几个案例吧。
差不多二十年前,我在大学里学一门《财务会计》课,那是金融专业的必修课。课程的结尾,每个学生都要挑选一家上市公司做财务分析,然后做PPT演讲。绝大部分同学选的都是A股或港股公司,我记得有人选了青岛啤酒,有人选了中国石化,我自己选的是达尔曼 (一家因为重大财务造假而退市的公司) 。但是有一位同学艺高人胆大,选了AMD。这让包括老师在内的所有人都比较震惊:
AMD是一家美股公司,财报都是英文,而且美股财务会计准则 (US GAAP) 与中国不太一样。对于本科生来说,难度显然更大。
AMD是做芯片的,芯片是一个十分复杂、科技含量很高的业务。何况当初AMD不止做芯片设计,还做制造,财务分析的难度更是呈几何级数提升。
那一年恰好是AMD业务剧烈变化的时期:推出了自家第一个双核处理器,剥离了闪存业务;次年还收购了ATI。对于这种剧烈变化中的公司,哪怕资深分析师也很难分析透彻,何况是学生?
这并没有妨碍我的老同学一本正经地胡说八道。我迄今还记得他的PPT标题叫做“The Rebirth of AMD” (AMD的重生) 。我之所以印象如此深刻,是因为他在PPT的前几页就犯了几个重大技术错误,把当时AMD的几款主力CPU搞混了,销量估计似乎也错了。我不是电脑DIY高手,但我前一年恰好装过机器,对这些基本常识还是懂的。所以接下来十几分钟我就没怎么听了,直到该同学激情四射地发出了“在新任CEO的率领下,AMD必将浴火重生”的结论。我强忍住了举手提问的冲动,因为我想提的问题是:“您是怎么做到,在连x86-64架构是什么都不懂的情况下研究AMD的?”
神奇的是,在事后评分环节,该同学得到了不错的分数 (尽管不是最高分) 。老师的理由是:“他的演讲台风很好,PPT全部使用了英文,而且穿了西装。”当时我并不理解,用英文做PPT、穿西装做演讲跟研究AMD有啥关系;现在我还是不理解。但是,跟我此后十几年工作中印证的更多惊悚案例相比,老同学穿着西装的胡说八道就算不了什么了。
2010年,A股TMT行业最热门的概念之一是“物联网”。当年年底,在无锡举行了一场关于物联网的展会,会议现场传出消息:“国家要投资几万亿建设车联网,今后所有的汽车之间都会联网,这是百年一遇的投资机会!”很遗憾,我并没有去现场出席会议,又不懂汽车,所以对这个话题毫无发言权,只能跟大部分人一样看着“车联网概念股”集体拉涨停。一位我熟悉的买方朋友打来电话:“活见鬼,怎么搞的?这么多股票都涨停了?”
我说:“今天无锡的会议上,不是有专家说,国家要投几万亿建设车联网吗?”
对方说:“WTF?我就在无锡,今天的会我从头到尾听了,哪儿有投几万亿建设车联网的说法?”
我说:“那我就不知道是谁编的段子了。”
事实上,编段子的不止一个人;准确地说全市场都在编段子。一个月之后,好几家知名券商几乎同时发布深度研究报告,宣布明年将进入“X联网时代”:物联网、车联网,我们身边的一切皆可联网。这可实在太魔幻了,因为当时连移动互联网都尚未普及,3G建设都才进展到一半,就连WiFi都尚在普及之中。我仔细阅读了上述所有报告,发现其中没有一篇提到“X联网”的技术基建问题如何解决;但这并不妨碍大家异口同声地描述几百亿、几千亿乃至几万亿的市场规模。
2011年初,上文提到的那位买方的朋友,在自家会议室里跟我讨论了一个小时:“车联网到底会使用哪种通信技术?”我没学过通信,但他是通信专业毕业的,还在运营商工作过。他在小白板上写下了一个又一个技术名词,又摇摇头,指出它们为什么不能用于车联网,然后把它们划掉。最后他自言自语道:“看样子,懂得太多就赚不到钱。还是一知半解好啊。”
我补充道:“不如说,一知半解加上胡说八道更好。一知半解是为了胡说八道而服务的,胡说八道才能赚钱嘛。”
斗转星移,现在大家都在谴责大模型的胡说八道,而罔顾自己惯于胡说八道的现实。我必须说句公道话: 当大模型胡说八道的时候,只要你坚定质疑它,它就会认错;可是我没见过任何人类就自己的胡说八道认错。 从来都没有,一个都没有!
从技术角度看,大模型幻觉是无解的。因为大模型并不真正“理解”问题,它是一个token一个token地组织回答的,统计学规律决定了它有时候必然会给出不靠谱的回答。何况,现在大模型的训练语料早已从人类社会的自然语料,进化到了大模型自身生成的语料,这就进一步加剧了胡说八道的风险。但是大模型不会基于任何“目的”而胡说八道——目前尚未有任何证据显示大模型产生了自我意识,也就谈不上有计划、有目的地生成错误信息。
人类的胡说八道,则是基于各种复杂的目的:赚钱,博取名誉,或者单纯的自我满足。 上文提到过,我是一个历史学爱好者,所以我经常在各大社交媒体观看历史问题的讨论。有些“爱好者”编造史料的功底令人叹为观止,确实把胡说八道变成了一种“艺术”。令我记忆犹新的,是一位知乎答主宣称“三国时期的魏国是一个禽兽之国”,因为史料显示“魏,犬名也”,拿狗的名字给自己命名的国家能好到哪里去?
很久很久以后,有人去查找原始史料,发现原文是“魏,大名也”。这种不动声色的胡说八道,我相信大模型永远学不会。这位知乎答主胡说八道的目的,仅仅是因为他崇拜刘备、讨厌曹操而已。这是一种朴素的目的,甚至不失可爱,但并不妨碍他对中文历史知识库造成了不可逆转的、近乎永久性的污染,因为那篇“魏,犬名也”的雄文已经被无数个自媒体转载过了。
你可以想象,为了那些更“现实”,以及更“崇高”的目的,人类是怎么面不改色心不跳地胡说八道的。 我甚至可以大胆推断:大模型的许多“胡说八道”行为,来自人类用户有意识的诱导。 因为人类自己先有胡说八道的意愿,才拿大模型当枪使,更高效地生成胡说八道性质的内容;最后这些内容的传播还得依靠人类的鼠标、键盘、触摸屏,因为直到现在,绝大部分AI Agent尚不具备自我传播内容的能力。
在轻松愉快地生成并传播一大堆胡说八道内容,满足自己不可告人的心理之后,这些人类用户又会伸伸手指,发布另一段内容:“大模型的胡说八道如何污染乃至摧毁了人类的知识库?今后还有没有客观真实可言?”
就连这样的内容,可能也是由GPT或DeepSeek生成的。大型滑稽。
(本文没有得到OpenAI,DeepSeek或其竞争对手的任何资助或背书,没有得到AMD或其竞争对手的任何资助或背书。)