OpenAI疯狂爬虫，将一家公司全部投入使用，CEO：堪比DDoS

2025-01-13

文｜金磊

来源｜量子位

没想到，能够把一个公司网站给搞停机的罪魁祸首，竟然是OpenAI疯狂爬虫的机器人。——GPTBot。

(GPTBot是OpenAI早期推出的一种工具，用于自动抓取整个因特网的数据。)

就在这两天，一家7人团队公司（Triplegangers）站点突然停机，CEO和员工赶紧调查问题到底出在哪里。

没有查清楚，一查吓了一跳。

OpenAI的GPTBot是罪魁祸首。

根据CEO的描述，OpenAI爬虫的“攻击”有点疯狂：

我们拥有超过65000种产品，每种产品都有一个页面，然后每个页面至少有三张图片。

OpenAI正在发送数以万计的服务器请求，试着下载所有内容，包含数十万张照片及其详细说明。

在分析了上周企业的日志后，团队进一步发现OpenAI已经使用了不仅仅是600个IP地址抓取数据。

△

如此大规模的爬虫，导致该公司网站停机，CEO甚至无奈地表示：

它基本上是一场比赛DDoS攻击。

更重要的是，由于OpenAI疯狂爬虫，CPU的使用和数据下载活动也会引起很多，从而导致网站在云计算服务中。（AWS）能源消耗急剧增加，费用将大幅上升……

嗯，AI大公司疯狂爬虫，却由小企业买单。

这个小团队的经历也引起了很多网友的讨论。有人认为GPTBot的做法不是抓取，更像是抓取。“盗窃”委婉的说法：

还有网友表示有类似的经历，自打阻止了大公司大量的AI爬虫，省下一大笔钱：

被爬虫到停机，还不清楚被爬走了什么？

那OpenAI为什么要爬虫这个创业公司的数据呢？

简而言之，它的家庭数据的确属于高质量的那一类。

据悉，Triplegangers的7名成员已经花了十多年的时间，建立了一个声称数据库中最大的“人类数字孪生”

该网站包括从实际人类模型中扫描的3D图像文件，并且照片还有详细的标签，包括种族、年龄、纹身和疤痕，以及各种身材等信息。

对于3D艺术家、游戏制作者等，需要数字化再现真实人类特征，无疑具有重要价值。

虽然Triplegangers网站上有一个服务条款页面，里面明确写着禁止AI未经许可抓取他们家的图片。

但是从目前的结果来看，这一点也没有起到任何作用。

关键在于，Triplegangers没有正确配置文档。——Robot.txt。

Robot.txt又称机器人排除协议，是通知搜索引擎网站在搜索网络时不要抓取任何内容而建立的。

换言之，如果一个网站不想被OpenAI爬虫，那么Robot必须正确配备。.txt文档，还有特定的标签，明确告诉GPTBot不要浏览这个网站。

但是OpenAI除了GPTBot之外，ChatGPT-User和OAI-SearchBot，他们还有相应的标签：

而根据OpenAI官方发布的爬虫信息，即使你立即正确设置了Robotot，.txt文档，也不会立即生效。

因为OpenAI识别更新这份文件可能需要24小时…

CEO老哥对此表示：

假如一个网站没有正确配备Robot.txt文档，那么OpenAI和其他公司会认为他们可以随意抓取内容。

它不是一个可选系统。

正因为如此，Triplegangers的网站在运行期间被搞停机，而且还赶上了高昂的AWS费用。

截至本周三美东时间，Triplegangers已按要求配备正确的Robotot。.txt文档。

为了防止Barkrowler和Bytespider等其他AI爬虫，团队还设立了Cloudflare帐户。

虽然Triplegangers在周四开始工作时没有再次停机，但CEO兄弟仍然有一个悬而未决的困惑。——

不知OpenAI从网站上爬了什么数据，也不能联系OpenAI…

而且让CEO老哥更加担心的是：

假如GPTBot没有“贪婪”到让我们的网站停机，我们可能不知道它一直在捕获我们的数据。

即使AI大公司说可以配置Robotot，这个过程也是有bug的。.txt可以防止爬虫，但是你把责任推到我们身上。

最后，CEO老哥也呼吁众多在线公司，如果想要避免未经许可的大型企业爬虫，必须积极、积极地去发现问题。

并非第一例

但是Triplegangers并不是第一家因OpenAI疯狂爬虫而导致停机的企业。

以前，还有Game UI Database这个公司。

该系统包含了超过56000张游戏操作界面截图的在线数据库，供游戏设计者参考。

有一天，团队发现网站加载速度变慢，页面加载时间增加了三倍。客户经常犯502个错误，首页每秒重新加载200次。

起初，她们还以为是被DDoS攻击，结果一查日志…是OpenAI，每秒查询两次，导致网站几乎瘫痪。

但是你认为OpenAI是唯一一个如此疯狂的爬虫吗？

非也，非也。

比如Anthropic类似的事情以前也被曝光过。

数码产品工作室PlanetaryJoshua的创始人 Gross曾经说过，他们为客户重新设计的网站上线后，流量急剧增加，导致客户云成本翻倍。

经过审计发现，大量的流量来自于抓取机器人，主要是由于Anthropic造成的无意义流量，大量的请求都回到了404错误。

针对这一现象，一项来自数字广告公司DoubleVerify的新研究表明，AI爬虫在2024年 “一般无效流量”(不是来自真实用户的流量)每年增加86%。

那AI公司，尤其是大型企业，为什么要如此疯狂地“吸入”网络上的数据呢？

总之，他们缺乏高质量的训练数据。

一些研究估计，到2032年，全球可用的AI培训数据将会耗尽，这使得AI公司加快了数据收集速度。

正因为如此，OpenAI谷歌等AI公司为了获得更多AI培训中使用的“独家”视频，现在正在向UP所有者大量购买“从未公开过”的视频。

如果是为了YouTubee，连价格都标好了，、未发布的视频，Instagram和TikTok，每分钟出价1~2美元。(整体价格一般为1~4美元)，而且根据视频质量和格式的不同，价格可以再次上涨。

参考链接：

[1]https://techcrunch.com/2025/01/10/how-openais-bot-crushed-this-seven-person-companys-web-site-like-a-ddos-attack/

[2]https://www.reddit.com/r/webscraping/comments/1bapx0j//how_did_openai_scrap_the_entire_internet_for/

[3]https://www.marktechpost.com/2023/08/10/openai-introduces-gptbot-a-web-crawler-designed-to-scrape-data-from-the-entire-internet-automatically/

[4]https://platform.openai.com/docs/bots/overview-of-openai-crawlers

[5]https://www.businessinsider.com/openai-anthropic-ai-bots-havoc-raise-cloud-costs-websites-2024-9

本文来自微信微信官方账号 “量子位”（ID：QbitAI），作者：关注前沿技术，授权发布36氪。

本文仅代表作者观点，版权归原创者所有，如需转载请在文中注明来源及作者名字。

免责声明：本文系转载编辑文章，仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布，请及时与我们联系进行审核处理或删除，您可以发送材料至邮箱：service@tojoy.com

延伸阅读

乘客在乘车时支付了3600多元，司机已经失联。

没有雷军的命运，张勇｜一周人物

前“私募股权大佬”徐翔、文峰股份等操纵市场一案判决，投资者二审胜诉

惯性与困境：2025年业务增长，必须看到机会。

事件中的哪吒：能否逆天而行，从巅峰到低谷？

项目推荐

梯影传媒

AI云印侠

宾果智能