斯坦福大学“急了”

虎嗅网 • 10月前扫码分享

出品｜虎嗅科技组

作者｜余杨

编辑｜苗正卿

头图｜视觉中国

6月4日消息，斯坦福大学AI团队反过来学习国内AI明星公司面壁智能的开源成果MiniCPM模型，激起了HuggingFace社区网友的广泛讨论，话题主要集中在：斯坦福大学AI团队涉嫌抄袭。

这并不是中国的大模型第一次在国外被抄袭。 但此次事涉斯坦福大学这样的知名机构，在引发关注的同时，也暴露出AI领域知识产权保护和学术诚信问题。

更值得深思的是， 为何MiniCPM模型吸引了斯坦福的眼球？这是否意味着国内大模型“出圈”了？

此次事件开始于斯坦福团队声称 以不到500美元（ 约等于人民币3650元 ）的成本就能训练出一个性能超越GPT-4V的SOTA多模态大模型。 这一声明迅速吸引了广泛关注，但不久后，社区内开始出现对Llama3-V的质疑声，指责其抄袭了面壁智能的MiniCPM-Llama3-V 2.5。

网友Magic Yang发现Llama3-V项目中有大量与MiniCPM-Llama3-V 2.5雷同的内容，包括模型结构和配置文件高度相似，只是变量名不同。

除了社区网友列出的证据外，经面壁智能团队核实， Llama3-V不但能够与MiniCPM一样识别出“清华简”战国古文字，并且两个模型连做错的样例都一模一样。 而这项成果来自面壁智能团队对浩如烟海的清华简逐字扫描，再一个一个地进行数据标注，经历了数个月的努力，才融合进模型中的，这进一步证实了Llama3-V模型的抄袭行为。

MiniCPM模型到底有什么魔力？

今年2月，面壁智能发布了20亿参数的开源端侧模型MiniCPM，在多个主流评测榜单中，该模型中英文分均超过Mistral-7B开源模型，甚至优于Llama 2-13B。

这个名为MiniCPM的开源模型的价值增长点在哪？

3月31日，虎嗅科技组主办的“2024 AI内参会”上，邀请到了面壁智能CTO曾国洋，极客邦科技副总裁、TGO鲲鹏会总经理杨攀做客。与会者就曾对开源模型的价值提出疑问，即相比其他增量模型，这个模型有什么优势呢？

在内参会上，曾国洋给出的答案是这样：它是一个“更高效的模型”，就是在有限的资源内去把模型做得更好。

“如果简单地将模型参数规模做大的话，它确实会随着scaling law出现效果的提升，但它单一维度的提升是低效的。我们在研究出一个更优化的方法之后，其实是可以随着参数扩大，让模型爆发出一种更明显地增长。”曾国洋说。

也就是说，研发人员可以通过它在固定资源预算中，如额定的GPU数量、训练数据量或是训练时长下，匹配模型的最佳大小，且无需经历昂贵的试错。 这无疑从很大程度上提高了研发效率，我们猜测，这或许就是开源模型Llama3-V反被抄袭的原因所在。

对此事，面壁智能CEO李大海表示遗憾，并呼吁共建开放、合作、有信任的社区环境。

目前，Llama3-V模型已从Hugging Face等开源平台上下架。 在社交媒体上，Llama3-V团队的两位作者森德哈斯·沙玛（Siddharth Sharma）和阿克沙·加格（Aksh Garg）正式向MiniCPM团队道歉。

斯坦福大学是世界顶尖的学术机构之一，此次事件使其声誉面临拷问，尤其是在AI研究领域，未来的学术成果的审查想必会更加严格。

相应地，面壁智能因祸得福，在国际关注度陡增的背景下，其商业价值也在聚光灯下无限放大，也就意味着更多合作伙伴和投资者。而AI领域的知识产权保护和学术诚信问题则任重道远。

本文被转载1次

首发媒体

| 转发媒体