维基百科启动AI写作清理行动:终结互联网的AI空洞文风

2025-11-26

如今的互联网上,越来越多的文字弥漫着一股「AI腔」。风景永远是惊艳的,事件永远是关键的,语言被打磨成千篇一律的光滑模板。而维基百科的编辑们在日复一日的内容巡查中最先察觉到了这种异样,并悄然发起了一场针对AI生成空洞内容的清理行动。



现在网上的很多句子,仿佛出自同一个流水线模板。


风景总是用「breathtaking」形容,建筑永远被冠上「modern」,随便一件事都要被定义为「标志着一个关键时刻」。


这些话语听起来完美无瑕,却轻飘飘地没有分量。读得多了,人们甚至会感到一种莫名的恍惚。


维基百科的编辑们早已对这种类似「广告腔」的表达感到厌烦,于是一场清理行动就此展开。


他们在校对大量新增内容后发现,最热衷于说场面话的,竟然不是人类作者,而是AI生成的文本。


就这样,一本既特别又实用的《AI文风识别手册》,在无数次的删改实践中被编撰出来。


模板化语言充斥的互联网


互联网的语言风格正变得越来越整齐划一,而维基百科最早察觉到了这种「不对劲的味道」。


每天都有成千上万的新内容被添加到维基百科的条目里,编辑们在巡查过程中逐渐发现:不少新增段落读起来流畅顺滑,但细品之下却充满了套话。


随着编辑们将这些可疑段落汇总分析,真相也逐渐浮出水面:


来源模糊、论据空洞、表达异常统一——这些特征都指向同一个可能性:越来越多的新增内容是由AI生成的。



为了防止百科全书被这种空洞的句子「掏空」,一群志愿者在2023年发起了「WikiProject AI Cleanup」项目。



项目链接:https://en.wikipedia.org/wiki/Wikipedia:WikiProject_AI_Cleanup


他们系统地记录这些异常的写作模式,试图找出AI生成内容的蛛丝马迹,以及那些看似正常却经不起验证的句子。


维基编辑率先捕捉到「异常信号」


清理行动之初,编辑们就发现:AI检测工具并不可靠。


真正有效的,是他们在多年内容巡查中练就的「语感」。


AI生成的段落表面看似正常,但仔细观察会发现三种明显的痕迹。


第一种是反复强调事物的「重要性」,却不提供任何现实案例支撑。


AI生成的内容常常用宏大的表述来描述主题,比如「a pivotal moment」(关键时刻)、「a broader movement」(广泛运动)。


但涉及具体细节时,既没有年份、来源,也没有可查证的材料。这种写法在强调真实性的百科语境中显得格外突兀。


第二种是在句尾使用现在分词结构。


像「emphasizing…」「reflecting…」「highlighting…」这类结尾,是目前最明显的「AI痕迹」。


TechCrunch的作者在报道中也指出:


这类现在分词是区分AI文风的关键线索之一。


第三种是频繁使用互联网式的「营销形容词」。「breathtaking」「modern」「renowned」「scenic」等词汇在广告中很常见,但在百科全书中使用则极不恰当。


维基编辑遇到这类描述时会立即核查来源,结果往往找不到对应的证据。


后来,这些规律被整理成《AI写作识别特征》手册。



链接:https://en.wikipedia.org/wiki/Wikipedia%3ASigns_of_AI_writing?utm_source


这本手册更像是一份经验总结,记录了编辑们遇到的问题句式,方便更多人参与清理工作。


AI文风的根源:语料库的影响


当编辑们整理出这些可疑句式后,一个问题也变得清晰起来:AI之所以会生成这样的内容,根源在于其训练所用的人类语料。


也就是说,AI从哪里学习语言,就会输出什么样的语言。


大型语言模型的训练数据涵盖了整个互联网的内容,包括新闻稿、SEO软文、宣传册和社交平台内容等。


而这些内容中最常见的表达,正是那些宏大却空泛、形容词夸张却缺乏事实、评价多于证据的写法。



维基百科将这类现象称为:「模糊赞美」和「营销语言」。


换句话说,AI并非故意使用「公关腔」,而是这类语料在互联网上最容易获取。


这也解释了为什么「夸大重要性」「-ing结尾」「广告式形容词」会频繁出现——这些是模型在海量语料中最常接触、最容易复制,且最缺乏上下文约束的句式。



维基百科的解决方案非常务实。他们知道无法完全杜绝AI生成内容,于是将重点放在了「证据链」上。


他们要求内容必须注明来源、核查链接、追溯出处。


这一点在《WikiProject AI Cleanup》的流程说明中写得很清楚:


凡是出现评价性语言、缺乏具体事实,或看上去「像模型生成」的内容,编辑可以先贴上「需要引用」的模板。


如果作者无法补充来源,这段内容就会被移至讨论页,必要时进入快速删除程序。


这一整套流程相当于维基百科的「免疫系统」:去除评价性形容词,让句子必须基于事实。


凡是经不起验证的内容,都会被自动拦截。对于一个完全依赖可验证性运作的百科全书来说,这无疑是百利而无一害的。


真实文字有骨架,AI文字一戳即空


维基编辑在清理过程中发现,最能一眼识别「AI味」的地方,在于句子是否包含「事实」。


AI喜欢用形容词和评价来支撑文章结构,而百科写作则依赖年份、数量、地点、报道来源等可查证的事实。


为了让更多编辑理解这种差异,《AI写作识别特征》手册特地列出了多类典型句式。


通过下面这组改写案例,可以清晰感受到两种语言的「骨骼」差异:


AI腔写法:


The conference was a pivotal moment, highlighting the continued relevance of the field.


这类句子在指南中被称为「重要性夸大+现在分词结尾」


「关键」「持续重要」等判断没有来源支撑,结尾的「highlighting…」属于典型的AI空洞分词结构。


维基百科的规范写法:


The 2023 conference in X City drew about 1,200 attendees. Coverage in Y Newspaper and the Z Journal discussed A and B policy proposals.


年份、参会人数、媒体报道——所有内容都是可查证的事实。事件的重要性无需直接评价,事实材料会自行说明。


再看另一个例子,也是编辑们最常遇到的广告腔:


The park offers breathtaking views and modern facilities, emphasizing its status as a renowned attraction.


指南将这种写法称为「模糊赞美/营销语气」:「breathtaking」「modern」「renowned」等词汇在广告中很合适,但在百科全书中毫无信息价值。


维基百科的规范写法:


The park has two viewing platforms and a 5-km walkway. It recorded about 450,000 visits in 2019 and completed accessible restroom and visitor-center upgrades in 2021.


不使用主观形容词,不做定性判断,只列出设施、年份、客流量等事实——所有内容都有来源可查。


在维基百科的世界里,没有来源的评价就是无效评价。


随着AI生成内容越来越多,我们读到的语言难免会被模板化腔调包围。


维基百科的做法提醒我们:判断一段文字是否可靠,并不需要依赖神奇的检测工具,而是要看这句话能否被验证、这个判断能否被追溯、这条信息是否站得住脚。


AI或许能写出更流畅的句子,但百科全书在意的不是文字是否优美,而是内容是否可信。


当空洞句子被删除、广告腔调被过滤、无出处的判断被移除后,百科页面上留下的就只有事实本身。


互联网的未来,或许也会沿着这条路发展——越是AI生成内容泛滥的时代,越需要人类为语言的真实性把关。


参考资料

https://techcrunch.com/2025/11/20/the-best-guide-to-spotting-ai-writing-comes-from-wikipedia/


https://www.theverge.com/report/756810/wikipedia-ai-slop-policies-community-speedy-deletion?utm_source


本文来自微信公众号「新智元」,作者:倾倾,36氪经授权发布。


本文仅代表作者观点,版权归原创者所有,如需转载请在文中注明来源及作者名字。

免责声明:本文系转载编辑文章,仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布,请及时与我们联系进行审核处理或删除,您可以发送材料至邮箱:service@tojoy.com