维基百科宣战AI内容:能否阻断互联网污染?
自ChatGPT风靡全球后,许多有识之士预言,生成式人工智能生成的内容将“污染”互联网。现实的确如此,从知乎、小红书、抖音等内容平台,到微信朋友圈,再到淘宝、拼多多,AI生成的垃圾内容几乎渗透到互联网的各个角落。

随着AI生成的内容日益增多,互联网上真正“人写的东西”愈发难寻。为此,维基百科近日做出新决定,赋予管理员更高权限,在特定条件下可迅速删除AI生成的内容。
维基百科编辑表示,“总体而言,AI内容的泛滥被视为对维基百科的一种‘生存威胁’。我们的工作流程向来依赖讨论与共识构建,若缺乏快速删除机制,AI高效生成的大量虚假内容将成为严重问题。”
具体来说,维基百科会立刻删除“AI味过重”的内容,比如“作为一个大语言模型,我XXXX”等生成式AI工具的经典话术,或是引用出现明显错误的内容,这也是生成式AI常见错误,它们会引用根本不存在的文献、论文。
实际上,维基百科对AI内容如临大敌是有原因的,两个月前他们曾尝试拥抱AI。今年6月起,维基百科部分页面加入类似谷歌AI概览的AI总结内容,以折叠形式呈现并标注“没有经过验证”,但这一实验引发了维基百科志愿者和用户的强烈抵制。

维基百科的内容创作者和消费者抵制AI是有道理的。作为全球最大且最受欢迎的网络百科全书,维基百科由全球志愿者合作编撰,其核心价值是可靠性、可追溯性和人人可编辑。其中的内容是不同语言、背景的志愿者精心打磨、确认的成果,因此成为互联网上优质、权威的内容。
对于百科全书类产品,内容的真实性和可靠性是基石,而目前AI生成内容的最大问题就是不可靠。如今AI模型常因幻觉而胡说八道,答非所问、前后矛盾的现象屡见不鲜,没有厂商能保证自己的AI模型不会胡编乱造。

所以在生产环境使用生成式AI,几乎都离不开人类员工的后期校正。比如AI客服答非所问激怒用户,需人工客服补救;AI生图产出违背物理规律的图片,需人类画师润色,这些都是互联网、游戏等行业的真实案例。
但维基百科并非商业实体,而是开源社区和众创空间。任何人注册账号就能成为志愿者编辑和更新百科内容,低参与门槛使内容丰富多样,但也导致编辑者素质参差不齐。
维基百科运营团队称,对明显AI生成内容一刀切,是因为大量志愿者甚至未通读所提交内容。“如果志愿者连基本问题都不检查,可合理推定他们没审阅内容,只是照搬,这种条目毫无价值。”

如今,不仅维基百科,Facebook、YouTube等平台也在积极打击AI生成的垃圾内容。与谷歌和Meta因担忧机器生成内容、点赞评论使人类成为旁观者,导致真实用户逃离,影响平台商业价值而采取行动相比,维基百科运营团队堪称理想主义。
近年来,维基百科是AI厂商爬虫重点“光顾”对象。自2024年1月以来,维基共享资源上存放的1.44亿个图像、视频或其他文件带宽增长50%,但流量并非来自人类用户,而是AI厂商的爬虫。

维基百科受AI厂商重视是必然的,因为AI模型训练需要高质量语料数据,而维基百科的内容质量在互联网上处于第一梯队。若维基百科放任AI生成的垃圾内容泛滥,使用其数据训练AI模型的厂商将面临训练效率下降的问题。
面对AI厂商近乎DDoS的“攻击”,维基百科严控内容质量,这给了AI厂商继续爬取其内容的理由,可谓理想主义爆棚。但问题是,仅靠维基百科自身,真能阻断AI生成的垃圾内容污染互联网吗?
本文来自微信公众号“三易生活”(ID:IT - 3eLife),作者:三易菌,36氪经授权发布。
本文仅代表作者观点,版权归原创者所有,如需转载请在文中注明来源及作者名字。
免责声明:本文系转载编辑文章,仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布,请及时与我们联系进行审核处理或删除,您可以发送材料至邮箱:service@tojoy.com




