斯坦福大学“急了”

虎嗅APP2024-06-06 15:57:59  128

出品|虎嗅科技组

作者|余杨

编辑|苗正卿

头图|视觉中国

6月4日消息,斯坦福大学AI团队反过来学习国内AI明星公司面壁智能的开源成果MiniCPM模型,激起了HuggingFace社区网友的广泛讨论,话题主要集中在:斯坦福大学AI团队涉嫌抄袭。

这并不是中国的大模型第一次在国外被抄袭。但此次事涉斯坦福大学这样的知名机构,在引发关注的同时,也暴露出AI领域知识产权保护和学术诚信问题。

更值得深思的是,为何MiniCPM模型吸引了斯坦福的眼球?这是否意味着国内大模型“出圈”了?

此次事件开始于斯坦福团队声称以不到500美元(约等于人民币3650元)的成本就能训练出一个性能超越GPT-4V的SOTA多模态大模型。这一声明迅速吸引了广泛关注,但不久后,社区内开始出现对Llama3-V的质疑声,指责其抄袭了面壁智能的MiniCPM-Llama3-V2.5。

网友MagicYang发现Llama3-V项目中有大量与MiniCPM-Llama3-V2.5雷同的内容,包括模型结构和配置文件高度相似,只是变量名不同。

除了社区网友列出的证据外,经面壁智能团队核实,Llama3-V不但能够与MiniCPM一样识别出“清华简”战国古文字,并且两个模型连做错的样例都一模一样。而这项成果来自面壁智能团队对浩如烟海的清华简逐字扫描,再一个一个地进行数据标注,经历了数个月的努力,才融合进模型中的,这进一步证实了Llama3-V模型的抄袭行为。

MiniCPM模型到底有什么魔力?

今年2月,面壁智能发布了20亿参数的开源端侧模型MiniCPM,在多个主流评测榜单中,该模型中英文分均超过Mistral-7B开源模型,甚至优于Llama2-13B。

这个名为MiniCPM的开源模型的价值增长点在哪?

3月31日,虎嗅科技组主办的“2024AI内参会”上,邀请到了面壁智能CTO曾国洋,极客邦科技副总裁、TGO鲲鹏会总经理杨攀做客。与会者就曾对开源模型的价值提出疑问,即相比其他增量模型,这个模型有什么优势呢?

在内参会上,曾国洋给出的答案是这样:它是一个“更高效的模型”,就是在有限的资源内去把模型做得更好。

“如果简单地将模型参数规模做大的话,它确实会随着scalinglaw出现效果的提升,但它单一维度的提升是低效的。我们在研究出一个更优化的方法之后,其实是可以随着参数扩大,让模型爆发出一种更明显地增长。”曾国洋说。

也就是说,研发人员可以通过它在固定资源预算中,如额定的GPU数量、训练数据量或是训练时长下,匹配模型的最佳大小,且无需经历昂贵的试错。这无疑从很大程度上提高了研发效率,我们猜测,这或许就是开源模型Llama3-V反被抄袭的原因所在。

对此事,面壁智能CEO李大海表示遗憾,并呼吁共建开放、合作、有信任的社区环境。

目前,Llama3-V模型已从HuggingFace等开源平台上下架。在社交媒体上,Llama3-V团队的两位作者森德哈斯·沙玛(SiddharthSharma)和阿克沙·加格(AkshGarg)正式向MiniCPM团队道歉。

斯坦福大学是世界顶尖的学术机构之一,此次事件使其声誉面临拷问,尤其是在AI研究领域,未来的学术成果的审查想必会更加严格。

相应地,面壁智能因祸得福,在国际关注度陡增的背景下,其商业价值也在聚光灯下无限放大,也就意味着更多合作伙伴和投资者。而AI领域的知识产权保护和学术诚信问题则任重道远。

转载此文是出于传递更多信息目的。若来源标注错误或侵犯了您的合法权益,请与本站联系,我们将及时更正、删除、谢谢。
https://www.414w.com/read/669460.html
0
最新回复(0)