斯坦福大学“急了”

虎嗅网  •  扫码分享
我是创始人李岩:很抱歉!给自己产品做个广告,点击进来看看。  

出品|虎嗅科技组

作者|余杨

编辑|苗正卿

头图|视觉中国


6月4日消息,斯坦福大学AI团队反过来学习国内AI明星公司面壁智能的开源成果MiniCPM模型,激起了HuggingFace社区网友的广泛讨论,话题主要集中在:斯坦福大学AI团队涉嫌抄袭。


这并不是中国的大模型第一次在国外被抄袭。 但此次事涉斯坦福大学这样的知名机构,在引发关注的同时,也暴露出AI领域知识产权保护和学术诚信问题。


更值得深思的是, 为何MiniCPM模型吸引了斯坦福的眼球?这是否意味着国内大模型“出圈”了?


此次事件开始于斯坦福团队声称 以不到500美元( 约等于人民币3650元 )的成本就能训练出一个性能超越GPT-4V的SOTA多模态大模型。 这一声明迅速吸引了广泛关注,但不久后,社区内开始出现对Llama3-V的质疑声,指责其抄袭了面壁智能的MiniCPM-Llama3-V 2.5。


网友Magic Yang发现Llama3-V项目中有大量与MiniCPM-Llama3-V 2.5雷同的内容,包括模型结构和配置文件高度相似,只是变量名不同。


除了社区网友列出的证据外,经面壁智能团队核实, Llama3-V不但能够与MiniCPM一样识别出“清华简”战国古文字,并且两个模型连做错的样例都一模一样。 而这项成果来自面壁智能团队对浩如烟海的清华简逐字扫描,再一个一个地进行数据标注,经历了数个月的努力,才融合进模型中的,这进一步证实了Llama3-V模型的抄袭行为。

 

MiniCPM模型到底有什么魔力?


今年2月,面壁智能发布了20亿参数的开源端侧模型MiniCPM,在多个主流评测榜单中,该模型中英文分均超过Mistral-7B开源模型,甚至优于Llama 2-13B。

 

这个名为MiniCPM的开源模型的价值增长点在哪?

 

3月31日,虎嗅科技组主办的“2024 AI内参会”上,邀请到了面壁智能CTO曾国洋,极客邦科技副总裁、TGO鲲鹏会总经理杨攀做客。与会者就曾对开源模型的价值提出疑问,即相比其他增量模型,这个模型有什么优势呢?

在内参会上,曾国洋给出的答案是这样:它是一个“更高效的模型”,就是在有限的资源内去把模型做得更好。


“如果简单地将模型参数规模做大的话,它确实会随着scaling law出现效果的提升,但它单一维度的提升是低效的。我们在研究出一个更优化的方法之后,其实是可以随着参数扩大,让模型爆发出一种更明显地增长。”曾国洋说。


也就是说,研发人员可以通过它在固定资源预算中,如额定的GPU数量、训练数据量或是训练时长下,匹配模型的最佳大小,且无需经历昂贵的试错。 这无疑从很大程度上提高了研发效率,我们猜测,这或许就是开源模型Llama3-V反被抄袭的原因所在。

 

对此事,面壁智能CEO李大海表示遗憾,并呼吁共建开放、合作、有信任的社区环境。

目前,Llama3-V模型已从Hugging Face等开源平台上下架。 在社交媒体上,Llama3-V团队的两位作者森德哈斯·沙玛(Siddharth Sharma)和阿克沙·加格(Aksh Garg)正式向MiniCPM团队道歉。

 

斯坦福大学是世界顶尖的学术机构之一,此次事件使其声誉面临拷问,尤其是在AI研究领域,未来的学术成果的审查想必会更加严格。


相应地,面壁智能因祸得福,在国际关注度陡增的背景下,其商业价值也在聚光灯下无限放大,也就意味着更多合作伙伴和投资者。而AI领域的知识产权保护和学术诚信问题则任重道远。


本文被转载1次

首发媒体 虎嗅网 | 转发媒体

随意打赏

提交建议
微信扫一扫,分享给好友吧。