知乎 AI 革命:智能搜索与实时问答的融合
在生成式人工智能(Generative AI)的信息技术跃迁背景下,如何看待知乎当下和未来,有三个基本的视角:
它是大语言模型预训练中文语料最重要来源之一,例如最近现象级的大模型聊天应用 Kimi Chat,就以知乎为重要的训练资料来源(甚至是 80% 以上的来源)。
每一个在知乎上提问的用户,其实都是在发 prompt(提示词);而每一个知乎的答主,基本都相当于基于个人知识和经验(语料)、价值观和思考逻辑(算法和思维链)的人肉语言模型。基于此,基于大语言模型的 " 数字人答主 " 会在知乎陆续出现。
鉴于 " 提问——回答 " 是知乎作为内容社区运转的基本逻辑,也是一系列大语言模型工具运转的基本逻辑,还是搜索引擎 20 年持续进化的主线—— Google、百度,还有新型的 AI 问答聚合工具 Perplexity,近期所做的一切,实质都是搜索引擎的 AI 化。因此,知乎的搜索属性——基于 AI 的搜索,将得到强化。
基于这三个视角,在 AI 的众声喧哗之侧的知乎,有以下可能拥抱生成式人工智能浪潮的方式:
做更好的中文预训练语料提供商,成为高质量中文语料的永动机,提供更高质量的、由人而不是机器创造的中文内容,让这些内容有更多被采集、使用和预训练的可能。参与国家级中文语料库建设,成为重要的语料建设者。
整个社区的激进 AI 化。AI 进行提问,更负责回答。知乎社区将出现大量的 AI 数字人作为独立的 IP ——历史的、 科技 的、医学的、文学的垂直领域数字人,让他们回答用户的提问,给出用户想要的答案。
以搜索为突破,以知乎自己的大模型能力(知海图 AI)为依托,让大模型参与部分问题答案的生成和总结,提示用户追问,引导用户在知乎社区内进行 " 多轮对话 ",从而吸引更多的答主,让大模型成为激发用户活跃度的催化剂。
以上三个路径,第一个保守,第二个激进,第三个是前两者的结合。知乎选择哪条路径,取决于知乎是什么,它在大语言模型生态产业链当中的角色是什么,以及它擅长什么。
3 月 20 日的 " 发现大会 " 上,知乎推出了三个与 AI 相关功能——
一个是搜索,帮助用户找到社区的 " 共识 "。
它其实相当于知乎站内的 Perpelexity ——用户提出问题,知海图 AI 模型基于社区内的内容,生成用户需要的答案。并不是所有的内容都能在知乎上找到答主生成的答案,很多时候,一个有深度的、需要专业知识支撑的问题,需要很久才能有专业领域的答主提供高质量的答案。但这样的问题,散落在社区各个角落的答主们针对其它问题的各条高质量答案,是可以作为参考依据的。这个时候,如果 AI 能通过搜索和生成,将这些答案里的有价值信息提炼出来,进行有效的推理,就能为一个 " 新鲜出炉 " 的专业问题提供一个立等可取的答案,提问的用户就可以能为快,然后再等其它的专业答主陆续赶到,下场答题。
在灰度测试这个功能的时候,知乎消费电子领域的专业答主 Navis Li 提出过一个专业问题:俄罗斯或前苏联好像有一个著名的镜头可以实现旋转的焦外虚化效果,镜头具体是什么?讲真,面对这种极度偏门专业的冷知识,等人来答需要花很长的时间,也可能等不到。但基于 AI 搜索,知乎其它专业答主和社区创作者在其它问题下面的答案经过提炼、分析和推理,给出了一个准确的答案。
第二个是实时问答,用于完成公共编辑。
它相当于 AI 生成的站内维基百科。一个高质量的提问下面可能有成百甚至上千的答案,其中的高赞答案可能也不下几十个。是不是每个人都有时间和耐心读完所有的答案,再形成一个自己需要的知识输出?这恐怕不太现实。它需要一个基于创作者的答案的 " 最佳答案 ",也就是最佳答案的提炼、萃取的维基百科功能。早年的知乎是有这个功能的,大家通过公共编辑,对所有的回答进行总结," 众创 " 出一个最佳回答。这个初衷是理想的,现实却有些骨感。它反倒成了知乎颇受争议的功能。因为人的主观、偏见和倾向是难以避免的,是容易制造更大冲突、对立和争议的,以至于知乎不得不下线了这个功能。
真正适合做 " 维基百科 " 工作的,是 AI。AI 的偏见不能说没有,但可以通过强化训练得到约束和控制。AI 的提炼和推理能力是呈指数级提升的。因此,基于创作者回答的 " 最佳回答 ",现在有了更好的生成者——大语言模型。这个实时问答其实是基于 AI 的公共编辑,让用户得到一个简单、直接和有效答案的路径更直接、更快速。
第三个是不断提问和追问的功能,甚至可以不需要提示词。
知乎长期是一个比较单向度的产品:一问多答。尽管有算法推荐的关联提问,但它不是同一个用户实时提出的问题,未必折射了一个提问者内心最大的好奇心和疑惑。现在看完了一个问题的回答,可以基于这个回答和提炼出来的 " 最佳答案 " 进行追问——追问甚至不需要主动输入提示词,而是 AI 自动生成。它其实在鼓励用户在知乎社区里进行 " 多轮对话 " ——就像一个人在 ChatGPT 和 Kimi Chat 上做的那些事一样。针对用户的追问,AI 可以给出它的答案,答主们也应该会陆续赶到现场。
这样,知乎作为一个 " 问答社区 " 的形态,就有可能从 " 一问多答 " 向 " 多问多答 " 演进。在一个基于问答的内容社区里,提问是最大的供给侧。过去的提问主要依靠的是人们的好奇心和求知欲,现在可以有 AI 加持和赋予的灵感。这么做的好处当然也很直观——产生更多的问题,以及相应的更多的答案。
一个搜索,一个实时问答,一个追问,它们背后都基于知乎的 AI,知乎把这个三合一的 AI 功能叫 " 发现 · AI 搜索 ",在首页的左侧给了一个 " 四芒星 " 的 logo。
看上去,它有搜索,但不是一个专门的搜索框。它有大模型对话,但不以对话界面的方式呈现。它可以追问,但 AI 不是唯一的答主。它看上去还是那个知乎,还需要大量有好奇的提问者,还需要高质量的专业答主。然后,AI 站在他们的身侧。
在前面的知乎拥抱 AI 的三条路径里,知乎选择的是第三条。这条路径的最终指向,是知乎作为一个知识问答社区最关键的命脉——用户的活跃、持续不断的高质量问题,以及高质量的可信赖的答案。
知乎相信 " 发现 · AI 搜索 " 会成为知乎社区的活水,但它高度警惕整个社区的激进 AI 化——大量的 AI 生成问题,大量的 AI 回答问题。社区里充满了机器人和数字人的提问者和答主,大量甚至大多数问题和答案都是 AI 生成的。
在硅星人与知乎创始人、CEO 周源最近的一次对话中,周源对 "NPC 答主 " 的态度高度审慎:" 平台不应该主动做这个事儿,平台为什么要让自己的体系里面产生这么多 NPC 呢?"
他认为知乎的 "AI 搜索 " 是一个 " 不依赖原来的信息流,换了一种基于大模型的能力和交互的方式,而对后续产生数据反馈非常直接 " 的功能。这个 " 数据的直接反馈 ",是指向活生生的 " 人 " 的,而不是 AI 的。作为提问者,能够更快、更直接得到他们想到的答案;作为答主,能够让自己的回答被更频繁地搜索、调取、索引和再度生成为新的内容。作为普通的浏览型用户,能够换一个界面和交互,用 " 搜索 " 和 " 发现 " 到更多过去需要下拉很多次信息流才能找到的问题和答案,这对于一个社区的活跃度是非常重要的事。它们将产生更多的内容,也是大语言模型训练所用的语料。
"AI 本身是一个语言模型,不会遇到问题。只有人才会在社会中遇到问题。你失恋了,下岗了,人才会有这种痛苦和欲望。人产生的问题和相应的内容才是可信的。AI 可以辅助你,但是如果把这层光明层去掉,AI 只是自循环的,我觉得就没有太大价值了 ",周源对硅星人说。
基于这个认知,他反对让 "AI 搜索 " 生成的答案和问题,以机器人的 IP 形式出现,而坚持只让它们出现在 " 四芒星 " 的角标里面,以私聊的方式出现,只属于用户个人,而不呈现在由提问者和答主这些真正的 " 创作者 " 出现的信息流里。
面对 AI,知乎真正要回答的问题是:人类如何与 AI 共享智慧,又保持对人类原创性的尊重和鼓励。这不是一个新问题,但需要一个新的解法。目前,它给出答案是:透过 AI,让人们发现人类创造的更大的世界,人类创作的更多的内容,而不是用 AI 发现更多 AI 生成的内容。
它指向了一个更为关键的问题:当世界上越来越多的内容是由 AI 生成的,人类的经验和人类创造的内容,会不会变成一种日益边缘化的稀缺资源?AI 生成内容的前提和基础是人类经验生成的语料——即人类通过历史、社会、 经济 、科技实践创造的内容——无论它们是文章、数据、图像、声音、视频还是代码。但如果人类创造的内容在 AI 生成的几何级增长 " 挤压 " 下变成一种稀缺资源,未来 AI 生成内容的经验从何而来,语料又从何而来?
这对每一个人都很重要,对事实上已成为全世界中文语料的重要资源库——知乎来说,更是一个必答题。
" 人工智能发展离不开芯片、模型、数据三个重要因素。芯片确实卡脖子,但芯片是一个工程学的问题,只要有了一定的规模,就能够迭代起来,我们工程师还是很厉害的。模型有开源优势,进化速度也不会慢。只有数据是不可再生资源,而且还没办法马上拥有。无论投 10 亿美金还是投 100 亿美金,都不可能在短时间里建立一个 UGC 社区,语料是一种不可再生资源 ",周源认为。
" 你把语料当成静态的,即便他是这样的,那也得把它看成是一片土地。你不能在一块土地上把玉米割了,然后去另外一个地方销售,不管这片土地明天有没有虫灾," 周源认为,全球的语料都存在着一种贫瘠化甚至枯竭化的可能,就像石油一样。
因此,让数据的供给和消费的飞轮能够转起来,让更多的数据变成大模型训练的语料,被 AI" 消费 " 的同时,更多的语料能够被反哺、AI 能激发人类再创造更好的内容,变成更有价值的语料,就变成了知乎在生成式人工智能浪潮下寻求答案的最有价值求解——尤其在它已经是全球中文 互联网 语料中绕不过去的存在的情况下。
成为可再生的持续供给的全球最大中文语料库有什么价值?来自美国的答案是:Google 已经向美国最重要的内容社区 Reddit 累计支付了 6000 多万美元,用于购买高质量的语料。
来自中国的答案是什么?在数据交易市场已经在政府和市场的双轮驱动下已经日臻成熟的情况下,中文语料将成为重要的可被交易的数据资源。谁是最重要的中文语料库,将成为继芯片和算力之后,另一种稀缺但重要的 " 水 "。谁都知道,AI 的发展,往往是 " 卖水 " 的人最先赚到钱。
来源:品玩