NeurIPS论文假开源遭曝光,较真研究员点名批评
2025年已过,2026年已至……但仍有较真的科研人员和程序员,决心站出来整治行业内的不良风气。
究竟是何事呢?
是AI学术界存在的假开源问题。
即发表论文时声称开源,还像模像样地附上GitHub链接,结果后续便没了下文。
这不,一位匿名AI研究员,专门针对AI领域顶级会议NeurIPS 2024展开调查,查看那些被接收的论文中,明确标注开源的项目最终有多少兑现了承诺。
不统计不知道,一查便发现了大问题——

从NeurIPS 2024收录的4035篇论文数据来看,其中真实开源的论文有2404篇;
除了1533篇未提供链接的论文外,有98篇论文明确表示开源且给出了链接,但代码仓库点进去要么烂尾要么处于待建状态。
当然,由于这项工作是通过AI完成的,可能存在一定错漏。
但这个“项目”对事也对人,有图有真相,有统计有数据,指名道姓地列出了相关单位……
实在太令人震惊了。
较真的AI研究员
据说事情的起因是,这位研究员抱着学习的心态点开开源链接,却被一个又一个404页面和“Code coming soon”的提示浪费时间,最终忍无可忍。
于是,在又一次被空仓库“忽悠”后,他决定不再沉默。
他直接对NeurIPS 2024这个已结束一年多的顶会论文进行了全面核查,截至目前仍未填补的“坑”,那些“Coming Soon”大概率已变成“Coming Never”。

用于爬取代码仓库的系统仅用一个晚上就开发完成。
该研究员表示,在智能体AI崛起的时代,深度核查学术诚信的成本将趋近于零,谁脚踏实地做研究,谁投机取巧搞形式,在大数据面前一目了然。
核查所用的AI系统融合了OpenReview/GitHub API及PDF解析技术,直接从论文PDF中提取链接,再逐个验证链接内是否有实际内容。
不过,这位研究员也强调,系统基于自动化爬取和启发式逻辑,可能存在误判(假阳性/假阴性),统计结果仅供参考,建议自行核验。
从检索结果来看,这份数据公开了各机构(横轴)的论文录用数量、真实开源数量、未标明链接的文章数,以及最受关注的假开源数量。

此外,还有98份明确承诺开源并提供链接,但链接指向空仓库的假开源名单,将这些“学术鸽王”的信息公之于众。

看完这些数据,只能用震惊来形容……
会议已结束一年多,这些“Coming Soon”为何最终变成了“Coming Never”?
假开源现象为何出现?
直接原因与审稿机制有关。
自2021年起,NeurIPS等顶会强制要求填写可复现性检查表(Reproducibility Checklist);
2024年的要求更为严格,不仅填写内容更细致,无法开源的理由也需详细说明,这些因素直接影响论文的审稿评分。
在这种机制下,勾选“愿意开源”几乎成为论文录用的潜规则加分项,代码仓库中的“Coming Soon”也随之盛行。
尽管顶会强制提交检查表,但并未强制验证可复现性,这就给了部分人钻空子的机会。

当然,现实情况可能比单纯的偷懒更复杂。
有些工业界的论文,代码发布需经过漫长的合规审批流程,团队便先在仓库中放置占位符,为创意“占坑”;
还有一些项目复现门槛极高,训练一次需耗费大量算力,使用的数据可能是内部数据,基本无人能复现,反而会引发质疑,索性就不再公开代码;
再加上课题组方向调整或专利问题等意外情况,许多原本能公开的代码最终不了了之……
其实,代码仓库“放鸽子”的现象并非只在私下被抱怨,前Stability AI研究总监Tanishq Mathew Abraham就曾公开批评过这种行为。

不少网友也对空仓库问题深感困扰。

而且AI圈中有卡帕西这样的开源模范,论文发表后代码立即公开,甚至还会附上详细的视频教程。
正因如此,大家看多了404页面和“Coming Soon”提示后才会如此愤怒。

补充说明
这位匿名AI研究员留言称:
“没时间”永远不是违背承诺的借口。若无法开源,就不该在论文中承诺。
能力不足并非过错;但当欲望超出能力范围,迫使你牺牲学术道德换取虚名时,这就是错误。
我并非针对某个人,只是想给行业提个醒。
AI领域发展迅速,新想法、新技术、新产品不断涌现,但科研诚信或许是最值得被“Fork”和“Star”的品质。
由于涉及具体机构和人员,且不符合原作者初衷,完整名单和链接在此不公开……
希望AI研究能越来越好。
本文来自微信公众号“量子位”,作者:关注前沿科技,36氪经授权发布。
本文仅代表作者观点,版权归原创者所有,如需转载请在文中注明来源及作者名字。
免责声明:本文系转载编辑文章,仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布,请及时与我们联系进行审核处理或删除,您可以发送材料至邮箱:service@tojoy.com


