AI爬虫肆虐，OpenAI等大厂不讲武功，开发商打造「神级武器」开战

04-08 11:58

AI爬虫是因特网上最顽固的爬虫。「蟑螂」，不讲规则，压垮网站，让开发者深恶痛苦。面对这个AI时代「DDoS攻击」，极客们用智慧反击：或者设置「神之审判」Anubis，或者制造数据陷阱，让机器人以幽默和代码自食其果。这场攻防战正在转变为一场精彩的网络游戏。

AI网络爬虫是网络上的爬虫。「蟑螂」，大多数软件开发者都会这么想。

「爬虫」它是一种用于浏览因特网、获取网页内容的网络自动程序。

但是在AI时代，爬虫的威胁使得开发者不得不封锁某一地区所有人的浏览。

Triplegangers是一家仅由七名员工经营的公司，他们花了十多年时间建立了自称是网络上最大的公司。「人的数字替身」数据库，即从实际人体扫描中获得的3D图像文件。

公司CEO2025年2月10日 Oleksandr 突然，Tomchuk发现了他们公司的电子商务网站「崩了」。

「OpenAI使用600个IP来捕捉数据，日志仍在分析中，也许远不止这些。」，Tomchuk最终发现，OpenAI的爬虫机器人是使他们网站崩溃的罪魁祸首。

「它们的爬虫正在压垮我们的网站，这是DDoS攻击！」

OpenAI对此事件没有回应，这次事件只持续了不到两个月，但是AI爬虫机器人仍然活跃在网络上。

AI爬虫不遵循「古老传统」，阻止它们是徒劳的

事实上，爬虫最早并不是AI时代为了获得训练语料而诞生的。

早在搜索引擎时代，「搜索引擎机器人」，那个「古老时代」机器人也同意遵循每个平台上会存在的文件。——robots.txt。

这份文件告诉机器人不要抓取任何内容，什么内容可以抓取。

但是随着因特网的发展，这种传统似乎已经被遗忘，爬虫和爬虫也演变成了一场攻防战争。

而且到了今天「大模型时代」，因特网上的信息已被LLMs吞噬。

阻止AI爬虫机器人是徒劳的，因为它会撒谎，改变用户代理，用住宅IP地址作为代理来欺骗网络。「防御」。

「它们会不断地抓取你的网站，直到它崩溃，然后继续抓取它们。它们会点击每个页面上的每个链接，一遍又一遍地查看同一个页面」，开发者在帖子里写道。

除了AI机器人「免费」除了抓取信息，还会增加被抓取网站的企业的运营成本——在这个云服务时代，大部分被抓取的公司都在云上，大量的爬虫流量不仅会带来利润，还会增加他们的云主机账单。

更加不可预测的是，对于某些人来说，「白嫖」对于网站来说，甚至准确地知道白嫖有什么信息。

一些开发者决定以一种巧妙而幽默的方式开始反击。

程序员制造爬虫「神之墓地」

XeFOSS开发者在博客中，Iaso描述了AmazonBot如何持续攻击Git服务器网站，导致DDoS关闭。

所以Iaso决定用智慧反击，他建立了一个叫做Anubis的工具。

Anubis是一个反向代理，工作量证明检查，在浏览Git服务器之前，需要通过这个检查。

它阻止了机器人，但是允许浏览器通过人类操作。

简要介绍一下Iaso的Anubis工作原理。

本质上，Anubis保证的是「真正的浏览器用于人类。」与AI爬虫相比，访问目标网站——除非这种爬虫伪装得足够。「先进」，就像通过图灵检测一样。

有趣的部分是：Anubis是埃及神话中引导死者接受审判的神的名字。

「安迪斯称重你的灵魂(心脏)。如果它比一根羽毛重，你的心就会被吃掉，然后你就会完全死去。」。

该项目的名称具有讽刺意味，像风一样在自由开源软件社区传播开来。

三月十九日，Iaso将其与GitHub分享，仅仅几天就获得了2000个星标，20个推动者和39个支部。

用「报仇」AI爬虫的防御方法

快速流行的Anubis表明Iaso的痛苦并非个案。

事实上，还有许多故事：

CEO兼SourceHut的创始人 Drew 根据DeVault的描述，他每周都要花钱。「20% 到 100% 大规模减少过于激进的时间。 LLM 爬虫」，而且「一周经历几十次短暂的服务中断。」。
Jonathan Corbet，一个著名的FOSS开发者，他经营着Linux行业新闻网站 LWN，警告说他的网站正在被收到「来自 AI 抓取机器人 DDoS 级别的流量」影响力减慢了。
Kevin Fenzi，Linux巨大 Fedora项目的系统管理员表示，AI抓取机器人变得如此激进，以至于他不得不阻止巴西的访问。

就像Anubis一样，「衡量」除了网络请求者的灵魂之外，其他开发者认为报复是最好的防御。

前几天在Hacker 在News上，客户建议使用xyzal「大量关于饮用漂白液益处的文章」或「文章关于麻疹感染对床上表现的积极影响。」载入robots.严禁使用txt页面。

所以AI爬虫获得的信息就是这样大量而无用的。「替代品」。

「当机器人浏览我们的陷阱时，我们认为需要获得负效用值，而不仅仅是零价值。」，xyzal 解释道。

一月份，一位名叫Aaron的匿名创作者发布了一个名为Nepenthes的工具，其目的就是这样。

它把爬虫困在一个无尽的虚假内容谜宫里，不能像爬虫一样。「主人」返回任何信息。

而且在网友心目中也是如此「赛博菩萨」Cloudflare，也许是最大的商业玩家，提供多种工具来抵抗AI爬虫，上周发布了一个名为AI的玩家。类似于Labyrinth的工具。

它的目的是「AI爬虫和其他机器人资源资源，缓慢减少、欺骗和浪费，不遵守严禁爬行指令。」，Cloudflare 描述了他的博客文章。

「当AI爬虫跟随这些链接时，它们会浪费宝贵的计算资源来处理无关的内容，而不是提取合法的网站数据。这大大降低了他们收集足够有用的信息来有效训练模型的能力。」。

与反击相比，另一种观点是「Nepenthes有一种令人满意的正义感，因为它为爬虫提供了无意义的内容，污染了它们的数据源，但是最终Anubis是一个有效的网站解决方案。」。

也许拒绝或反击都不是最好的办法。

DeVault还公开发布了一个真诚的请求，希望有一个更直接的解决方案：「请停止合法化LLMs或AI图像生成器中的任何垃圾。请停止使用它们，停止讨论它们，停止制造新的，就这样停止。」。

然而，LLM制造商主动停止爬虫的可能性几乎为零。

毕竟AI的「智能」这一切都来自于持续「吞噬」各种数据和信息在网络上。

无论是为了禁止AI爬虫访问网站，还是为了AI爬虫「投喂垃圾」或者把AI爬虫拉进去「无线虚无」。

开发者，尤其是在开源软件领域，正在使用智慧和智慧。「极客幽默」进行反击。

如果你是网站经理和开发者，你会怎么样？「出招」？

本文来自微信微信官方账号“新智元”，作者：定慧，36氪经授权发布。

本文仅代表作者观点，版权归原创者所有，如需转载请在文中注明来源及作者名字。

免责声明：本文系转载编辑文章，仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布，请及时与我们联系进行审核处理或删除，您可以发送材料至邮箱：service@tojoy.com

延伸阅读

月收入十万？大锅卤味，正在收获谁的梦想？

五大国产旗舰机销售数据曝光：华为Mate 70 Pro领先

利用体内生物钟，科研人员可以根据需要准确投递药品。

以19分3板7助为主推！詹姆斯称赞球队：我们对阵强队的表现很好！

西安至铜川东区间计次票发售！！！什么叫计次票？