Nature:AI使抄袭问题更加复杂,科学家应该如何应对?

2024-08-23

【导读】在写作中,生成式人工智能的爆炸性应用使抄袭难以定义,引起了学术界的一场大讨论。


从1月份哈佛大学校长因抄袭控告离职,到2月份同行评审报告中的抄袭,今年学术界因抄袭事件动荡不安。


但是在学术写作中,一个更大的问题刻不容缓。——


生成型人工智能工具的迅速普及,引发了一些关于哪种行为构成抄袭,以及AI工具应该被允许应用到什么程度的问题。


Jonathananathana版权和抄袭问题 Bailey认为,「人工智能的应用范围很广,从全部由人类编写到全部由人工智能编写,其中有一个巨大的混乱区域。」。


基于被称为大语言模型的ChatGPT等生成型人工智能工具。 (LLM) 该方法可以节省时间,提高清晰度,减少语言障碍。


现在,许多研究者认为,在某些情况下,这些工具可以被允许使用,并且应该充分披露它们的应用。


然而,这些工具使得对不当使用他人作品的定义变得更加复杂,这些工具本来就充满了异议。


LLM通过消化大量之前发表的文章来生成文本。所以,使用这些工具可能与之相似。「抄袭」。


例如,研究人员把机器写的东西伪造成自己的作品,或者机器生成的文本与其他人的作品非常接近,但没有标明来源。


LLM还可以用来掩盖故意抄袭的文字,而且很难检测到。


Petetetete,英国普利茅斯大学生态学家。 Cotton说,「定义学术不诚实或抄袭的真正含义,以及界限在哪里将是十分困难的。」


68%的受访者在2023年对1600名研究人员进行的一项调查中表示,人工智能将使抄袭行为的门槛降低,而且很难被发现。


论文地址:https://www.nature.com/articles/d41586-023-02980-0


Deborara是柏林应用科学大学的抄袭专家。 Weber-Wulff说,「每一个人都担心别人在使用这些系统,也害怕自己在应该使用的时候没有使用。每个人都在为这件事而焦头烂额。」


在抄袭中遇到AI


美国科研诚信办公室将抄袭定义为「窃取他人的观点、过程、结果或文字,不给予适当的认同。」。


这个问题其实并不少见。根据2015年的一项研究,1.7%的科学家承认他们抄袭过,30%的科学家知道他们的同事抄袭过。


LLM可能会让事情变得更糟。如果有人要求LLM重复措辞,很容易伪装故意抄袭人类写的文字。


哥伦比亚大学是加拿大的英属。(UBC)Muhammadmad计算机科学家兼语言学家 Abdul-Mageed表示,这些工具可以被提醒以复杂的方式进行复述,例如以学术出版物的风格进行复述。


一个核心问题是,是否使用完全由机器而不是人类撰写的无签名内容作为抄袭。


许多研究人员认为不一定。例如,欧洲学术诚信网络,包括大学和个人,将未声明使用人工智能工具的写作定义为「生成未经授权的内容」,与其抄袭自己。


Weber-Wulff说,「对我来说,抄袭是指可以归结于另一个可识别的人的物品。她补充说,虽然人工智能生成的文本看起来和现有人类写的几乎一模一样,但通常不足以被视为抄袭。」


然而,也有人认为,生成式人工智能工具侵犯了版权。


抄袭和侵犯版权是对他人作品使用不当,抄袭是违反学术道德的行为,未经授权使用受版权保护的作品可能违法。


Radada,密歇根大学安娜堡分校。 Mihalcea说,「这类人工智能系统是基于数百万或数亿人的工作。」


一些媒体公司和作家抗议他们认为人工智能侵犯版权的行为。


2023年12月,《纽约时报》向科技巨头微软和OpenAI提起版权诉讼。该诉讼称,这两家公司复制并使用了该报的数百万篇文章来训练LLM,而这种训练模式现在正在与该出版物的内容竞争。


诉讼内容包括,GPT-4在提醒下,几乎一字不差地复制了几段报纸文章。


今年二月,OpenAI向联邦法院提出了一项动议,要求驳回部分诉讼内容。 「ChatGPT 并非《纽约时报》订阅的替代品。」。


一位微软发言人说,「应允许合法开发的人工智能工具以负责任的方式开发」,「他们也无法取代记者所扮演的重要角色。」。


Jonathananathana版权和抄袭问题 Bailey说:「如果法院裁定未经许可对文本进行人工智能培训,确实侵犯了版权,这将对人工智能公司产生巨大影响。」。如果没有大量的训练集,像ChatGPT这样的工具「不可能存在」。


AI爆发


不管这个抄袭与否,自2022年11月ChatGPT发布以来,人工智能在学术写作中的应用呈爆炸式增长。


研究人员估计,在2024年前6个月的生物医学论文中,LLM至少有10%的摘要被用来写作——相当于每年15万篇论文。


Dmitryy,德国图宾根大学的数据科学家。 在2010年至2024年6月期间,Kobak领导的研究人员分析了学术平台PubMe发表的1400万篇摘要。


他们发现,「深入」(delves)、「展示」(showasing)和「强调」(underscores)这类词语的出现可能意味着LLM的应用。


他们通过寻找这些词来估计使用人工智能处理后的摘要比例。


研究小组发现,基于LLM的写作助手的出现对科学文献产生了前所未有的影响。



研究表明,中国、韩国和其他国家的论文显示出更多使用LLM的迹象,而不是以英语为主要语言的中国。


然而,Kobak说,英语国家的作者可能也经常使用这些工具,但很难找到他们使用的方法。他预测LLM的应用。「肯定会继续增加」,并且「也许会越来越难发现。」。


将未公开的软件应用到学术写作中并不是什么新鲜事。


自2015年以来,法国图卢兹大学计算机科学家Guillaumee Cabanac和他的同事们一直在透露软件编写的名字叫SCIgen。「胡说八道」论文,以及包括在内的论文。「折磨人的句子」这些句子是由软件自动生成的,用于翻译或复述文本。



Cabanac说,「甚至在生成型人工智能出现之前,每个人都有一些工具可以偷天换日。」


人工智能在学术写作中的应用也有一定的价值。研究人员表示,它可以使文本概念更清晰,减少语言障碍,并腾出时间进行实验和思考。


利雅得沙特国王大学信息技术研究员Hend Al-Khalifa说,在人工智能生成工具问世之前,许多以英语为第二语言的同事在写论文时都会非常困难。


但是现在,他们致力于研究,并使用这些工具来解决写作问题。


但是,对于使用人工智能何时形成抄袭或违反社会道德,大家仍然感到困惑。


马里兰大学帕克学院计算机科学家Soheil Feizi 据说,用LLM来复述当前论文的内容显然是抄袭。


但是,无论是根据详细的提醒生成文本,还是编辑文稿,使用LLM来帮助表达想法,如果是透明的,就不应受到惩罚。


Feizi 觉得,「我们应该允许每个人使用LLM,毫不费力地更清楚地表达自己的观点。」。


现在,许多期刊的政策都允许LLM在一定程度上使用。


Science在2023年11月更新了自己的政策,该政策在最初禁止使用ChatGPT生成文本后,规定在撰写稿件时应完全公开使用人工智能技术,包括采用的系统和提醒。作者应该对准确性负责,「确保没有抄袭行为」。



Nature还表示,研究稿件的作者应该在方法部分记录任何使用LLM的信息。


分析了100家大型学术出版商和100家排名靠前的期刊,发现到2023年10月,24%的出版商和87%的期刊都制定了使用生成人工智能的指南。


大多数提供指南的出版商表示,人工智能工具不能被作者收录,但在允许使用人工智能的类型和要求公布的水平上,政策是不同的。


Weber-Wulff表示,在学术写作中,迫切需要更清晰的人工智能操作指南。


Abdul-根据Mageed的说法,目前由于其局限性,使用LLM编写科学论文的热潮已经受到抑制。顾客需要建立详细的提示来描述受众、语言特征和研究子领域。「实际上,语言模型很难完全满足你的要求。」


但是Abdul-Mageed表示,开发者正在开发一个应用程序,可以使研究者更容易地生成专业的科学内容。以后顾客不需要写详细的提示,只需从下拉列表中选择选项,然后按下按钮,就可以重新开始写整篇论文了。


「侦探」工作


在快速选择LLM编写文本的同时,也出现了大量的工具来检验LLM。


尽管许多工具吹嘘自己的准确率很高,有些甚至超过了自己。 90%,但是研究发现,大多数工具都没有达到它们的要求。


一项研究于去年12月发表,Weber-Wulff 与她的同事广泛应用于学术界。 评估了一种人工智能检测工具。


只有5个工具可以准确识别70%以上的文本是人工智能还是人类写的,没有一个工具的准确率超过80%。


在人工智能生成的文本被轻度编辑后,通过更换同义词和优化词序,检测器的平均准确率降低到50%以下。


这类文字是作者写的「现在的工具几乎无法检测出来」。其它研究还表明,多次复述人工智能文本将大大降低检测器的准确性。


人工智能检测器还存在其它问题。


一项研究表明,如果英语不是母语的人写的英文文章,他们更容易被误判为人工智能产生的文章。


Feizi说,检测器无法可靠地区分人工智能编写的所有文本,作者使用人工智能来帮助提高语法和句子的清晰度来润色文本的状态。


他说,区分这种情况相当困难和不可靠,可能会导致很大的误报率。此外,人工智能的错误控告会对这些学者或学生的声誉造成很大的损害。


合法使用人工智能和非法使用之间的界限可能会进一步模糊。


2023年3月,微软开始将人工智能生成工具纳入其应用程序,包括Word。、PowerPoint和Outlook。它的某些版本的人工智能助手叫做Copilot,可以拟定或编辑内容。


6 月亮,谷歌还逐步将其生成式人工智能模型Gemini集成到Docs和Gmail等工具中。


Debby是英国普利茅斯马戎大学的高等教育专家 Cotton说,「人工智能正在渗透到一切中,我们越来越难以区分我们所做的事情是否受到AI的影响。它的发展速度比我们能跟上的更快。」。


参考资料:


https://www.nature.com/articles/d41586-024-02371-z


本文来自微信微信官方账号“新智元”,编辑:庸庸 经授权发布的乔杨,36氪。


本文仅代表作者观点,版权归原创者所有,如需转载请在文中注明来源及作者名字。

免责声明:本文系转载编辑文章,仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布,请及时与我们联系进行审核处理或删除,您可以发送材料至邮箱:service@tojoy.com