一年生产7876篇数据,AI大力加持,大量垃圾论文爆发。
【介绍】当学术研究沦为「填空游戏」,利用美国NHANES公共数据集,结合ChatGPT等AI工具,研究人员通过应用模板和排列变量,批量生产看似精美但质量令人担忧的论文。这不仅是技术的滥用,也是科研评价体系扭曲的缩影。
假如你是一个科研期刊的编辑,每天打开邮箱,迎接一堆熟悉的论文。
它们主题各异,数据整齐,措辞流畅,但总有一种令人不安的感觉。「模板感」。
这个场景不是一个盲目的场景,而是发生在2024年。《Scientific Reports》Matt编辑 Spick的亲身经历。
作为英国萨里大学的统计学家,他发现大量的论文像流水线商品一样涌来,都是基于我国美国的健康和营养检查。(NHANES)这个公共数据集。
「我收到了太多几乎一模一样的论文,有时一天一篇,有时两天三篇,」Spick无奈地说,「这不太对劲」。
最近,Science网站上的一篇文章详细描述了这一事实。

文章地址:https://www.science.org/content/article/low-quality-papers-are-surging-exploiting-public-data-sets-and-ai
Spick发现,他在期刊上遇到的问题只是冰山一角。
这篇论文并非独立现象,而是一篇席卷全球学术界的论文。「研究填空游戏」。
上个星期,他和同事在一起《PLOS Biology》近年来,NHANES低质量论文的使用量急剧增加,杂志上发表的研究指出。

论文地址:https://journals.plos.org/plosbiology/article?id=10.1371/journal.pbio.3003152
NHANES「魔力」与「圈套」
NHANES是一个庞大的公共数据集,包括超过130,000人的健康检查、血液检测和饮食信息。
它的开放性使研究人员能够轻松地挖掘数据,探索健康与疾病的关系。
不过,这种方便也成了双刃剑。
Spick发现,这些NHANES论文遵循一个简单的方法。「公式」:选健康状况(如抑郁)、一个可能的环境或生理因素(如维生素D水平),然后限制一个群体(如65岁以上的男性)。通过排列组合,研究人员可以快速生成「新发现」。
「似乎所有可能的组合都已经被研究过了。」Spick说。
Reesesese,西北大学的元科学家 Richardson将其生动地称为「研究填空游戏」。
他提到,其他研究者在许多领域也发现了相似之处。「爆发式增长」,例如基因研究,文献测量分析,以及个体差异研究在不同科学学科中的研究。
Spick团队在PubMed和Scopus两个数据库中搜索基于NHANES的单变量关联研究,以量化这一现象。
在147种期刊中,他们发现了341篇这样的论文,其中包括《Scientific Reports》、《BMC Public Health》及《BMJ Open》。
结果令人震惊:从2014年到2021年,这类论文每年只有4篇,但从2022年开始,数量急剧增加,到2024年,到10月份已经达到190篇,远远超过了其它大型健康数据集的增长速度。
更加令人担忧的是,其中许多论文都有选择地处理数据,例如只使用某些年份或年龄组的数据,没有明确的理由。
它的背后通常是「p值捕猎」——即使这些结果可能是假的,也要通过反复尝试找出统计显著的结果。
Spick团队以抑郁症相关研究为例,分析了28篇NHANES论文,发现假发现率在多次检测结果中。(FDR)校准之后,只有 13 项目关联仍然保持着统计的显著性。
这个意思是超过一半「发现」这可能是噪音的统计,而非真相。
Spick和他的团队甚至认为,他们的分析也可能大大低估了问题的严重性。
对于符合Spick模式的NHANES研究,他们的搜索范围更广,发现使用NHANES数据集的论文从2023年的4926篇飙升至2024年的7876篇。
Spick还指出,类似的漏洞也可能出现在其他大型健康数据集中,如全球疾病负担研究。
AI和论文工厂「共谋」
为什么NHANES论文会在2022年后井喷?
回答指向一个时间点:ChatGPT等AI工具的广泛普及。
这类工具可以根据简单的指令生成流畅的文字,甚至可以通过改写来避免抄袭检测。
Jennifer,悉尼大学的分子生物学家 在审稿过程中,Byrne指出,这类论文「规模和时机」令人怀疑背后有协调运行,论文厂(paper mills)也许是幕后推手。
论文厂是专门销售论文署名权的商业机构。他们利用AI快速生成论文框架,结合NHANES等公共数据集的便利性,制作出看似合法的论文。
Spick团队甚至可以通过编写一个简单的Python代码,从NHANES中提取数据并提取数据「批量生成」疾病与健康变量的结合。
这种「工业化」生产方法使低质量的论文像洪水一样涌入学术期刊。
「说实话,这让我气得跺脚。」Spick表示。
思想家Hannah Arendt曾经提出「平庸之恶」概念,描述那些在制度下机械执行恶行的行为。
为什么今天的论文工厂不是一种?「平庸之恶」?他们不一定故意破坏科学,但是机械化的论文生产,悄悄地侵蚀了学术基础。
歪曲之镜
这场「研究填空游戏」不仅仅是技术和数据,还有学术生态的扭曲。
Richardson一针见血地指出:「所有被点名的期刊都收取了大约1000美元的发布费用,以发表这些垃圾论文。」
开放期刊(例如)《PLOS Biology》)通过作者付费实现免费阅读,但是这也使得一些期刊更加注重数量而不是质量。
更深层次的问题是科研评价体系。
许多大学和机构都把论文的数量作为晋升和资助的主要标准,而不是论文的质量或知名度。
在「发布即成功」在文化下,研究人员只能制作更多的论文,即使这些论文毫无价值。
但是当研究变成填空游戏时,研究者很难找到意义。相反,他们被困在一个循环中:不断生产「成果」,即使这些结果可能只是学术垃圾。
当论文变成KPI时,科学就从探索真理变成了数字游戏。
破局之道
这场危机并非没有解决办法。
Spick建议,期刊应加强对NHANES等公共数据集论文的审查,例如要求作者明确数据选择的原因,并进行更严格的统计校准。为了识别AI生成的文本,Byrne呼吁开发更智能的检测工具。
学术激励制度需要重塑才能进行更为根本的改变。
Richardson警告:「问题只会更糟,除非我们完全改革了科研发布的激励模式。」。
这场「研究填空游戏」更加像一面镜子,反映了技术进步与学术伦理的碰撞。
AI和公共数据集本来应该是科学的加速器,但是在扭曲的激励下,它们变成了垃圾论文的苗床。
参考资料:
https://www.science.org/content/article/low-quality-papers-are-surging-exploiting-public-data-sets-and-ai
本文来自微信微信官方账号“新智元”,编辑:犀牛,36氪经授权发布。
本文仅代表作者观点,版权归原创者所有,如需转载请在文中注明来源及作者名字。
免责声明:本文系转载编辑文章,仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布,请及时与我们联系进行审核处理或删除,您可以发送材料至邮箱:service@tojoy.com




