斯坦福抄袭清华，世界一流大学实锤。

2024-06-09

近期 AI 圈子里又闹出了一条大新闻，《斯坦福团队抄袭中国 AI ！》

估计刚刚看到这个标题，许多人就像世超一样被蒙蔽了双眼。啊？看到花眼了吗？

哪一个斯坦福？确定没有反对？

你猜怎么样，这真的是真的。 QS 前五名的那个美国斯坦福。

不要说国内网友，业界大佬也无法绷紧，大呼时代变了。

准确地说，应该是斯坦福的一个。本科生团队，抄了清华博士生创业企业商品，即商品面壁智能的开源模型：MiniCPM-Llama3-V 2.5 小钢炮。

事情要从 5 月 29 号谈起。

这一天有两种斯坦福印度年轻人，还有一位佛祖（ Siddharth 悉达多）同名，世界上最大的 ai 开源社区—— HuggingFace 他们的大模型已经在上面发布了。 Llama-3-V 。

看着他们光鲜亮丽实习简历，另一个特斯拉也是如此 SpaceX 不久，网友们就把这个号称叫做这个。 " 500 刀子可以练成比肩 GPT-4V 、 Gemini Ultra " 后起之秀，顶部 HuggingFace 首页，文章访问量也是如此超出 30 万。

一开始可能有人会想:我是大美利坚江山人才。看，本科生可以做出和大厂相比的成绩。什么是世界一流？～

不久，有些眼尖的业内人士发觉不对劲，你这东西怎么看？ 21 号那个 MiniCPM 小钢炮差不多，不会是抄袭吧，为什么不标注来源？？

之所以别人丁真一眼鉴定为抄袭，主要是因为它声称体积小、性能强、模态多，很难不让人把它和清华的特点联系起来。 MiniCPM 对比。

但他又声明自己是原创的，没引用别人 MiniCPM 。

然而，面对他人的指责，这个大学生团队仍然是嘴硬，说 MiniCPM 是引用了 LLaVA-UHD 是的，我们也引用了这一点，读书人的事，那可以叫抄袭吗？真的是这样吗？装傻的天才。

问题是 MiniCPM 和 LLaVA-UHD 原来的样子早就不一样了，但是你这个 Llama3-V 的长相跟 LLaVA-UHD 不能说完全一样，至少没有任何关系。，但是和别人的小钢炮就像一个妈生。

等待放在一起仔细一看，好家伙，模型结构就算是和别人一样，也算了，环境变量怎么也一模一样。

再次看看代码，除了加点格式化，改了几个变量名，其它都没有什么不同，甚至清华。专门界定的特殊字符，您的代码没有变化。

更加有趣的是，一些网民发现了运行。 Llama3-V 当时，斯坦福团队提供的权重文档(微调用神经网络的参数）不能跑，但是如果把变量名改成变量名， MiniCPM-Llama3-V 2.5 的，便会顺滑启动。

都锤成这样了，印度老哥还是一直都是这样，咬死不认。

不久，收到消息的面壁智能官方也结局开锤，表示 Llama3-V 这个项目的作者并不完全理解 MiniCPM-Llama3-V 2.5 结构，甚至还有他们不理解自己的代码。。

也就是说，还挺阴阳的， " 你们抄都没抄懂啊。 "

此外，面壁团队还甩出了一个雷神之锤的证据， Llama3-V 实际上可以识别清华简！

清华简是清华校友捐赠的重要文物，这是埋藏于东汉时代的竹简躲过了秦始皇。焚书，包含古代《尚书》在内的保存、秦代史料、医学哲学等极为珍贵的原始档案，简而言之，就是上古版《永乐大典》。

事实上，清华简识别是 MiniCPM-Llama3-V 2.5 研发时内置的彩蛋，所有的训练识别数据，都是面壁智能与清华大学合作，一字一句地扫描，从未公开。斯坦福团队无法获得这些完全私有的数据，但两种模型都可以识别，甚至可以识别。犯错的地方都是一模一样的。

在这里，可以说他们的抄袭是100%， 板上钉钉事情发生了。鼓破万人捶，面对全世界网友的唾沫星子，这两个印度哥们是怎么做的？

答，删库跑路！

它们立即被删除 HuggingFace 上的 Llama3-V 模型，并且表示： " 非常感谢那些在评论中指出与之前的研究相似之处的人。我们意识到我们的结构非常类似于 OpenBMB 的 MiniCPM-Llama3-V 2.5 ，在推进方面，他们比我们好抢先一步。对于作者的原始模型，我们已经删除了。 "

没有，太多啊，还要点脸吗？

接着，它们又是光速滑跪道歉甩锅三连，说我们兄弟俩只是宣传推广，代码都是外包给另一个南加州大学的哥哥做到了，冤枉啊！

但是事情已经闹大了，丢脸儿。官方斯坦福大学他们的人工智能实验室主任谷歌也很快结束了。 Deepmind 的研究员 Christopher David Manning 直接发文开喷， " 典型的不承认自己的错误！ "

并对 MiniCPM 这个中国开源模型表示赞赏。

而且被复制的面壁智能创始人刘知远，对他们说：“三个队伍中的两个也只是斯坦福大学的本科生，如果未来还有很长的路要走，知道错误就改变，善莫大焉。"

面壁 CEO 李大海还幽默地回应： " 我们对此深感遗憾。一方面，我们感叹这也是国际团队认可的一种方式；另一方面，我们呼吁创造一个开放、合作和可靠的社区环境。 "

" 希望团队的良好工作能得到更多人的关注和认可，但是没有这样做。 "

话虽如此，但是这次的事情确实让大家注意到，国内的事情， AI 好像也不是刻板印象中那样了。

连头大佬， Hugging Face 负责人 Omar Sanseviero 也表示，

" 社区一直忽略了中国机器学习生态系统的工作。他们正在制作一些有趣的大语言模型、视觉模型、音频和扩散模型令人惊奇的事情。 "

还提到了鹅厂混元大模型，以及最近爆红的模型。 ChatTTS

以此为主角面壁智能而且，虽然各大厂商（谷歌安卓上个月 15 ，过两天苹果 iOS18 ）他们都在手机上布局大模型，但是经过这次事件，大家发现这家中国企业，在这条赛道上也是如此。十分出色。