OpenAI疯狂爬虫,将一家公司全部投入使用,CEO:堪比DDoS

01-13 12:21

文|金磊


来源|量子位


没想到,能够把一个公司网站给搞停机的罪魁祸首,竟然是OpenAI疯狂爬虫的机器人。——GPTBot



(GPTBot是OpenAI早期推出的一种工具,用于自动抓取整个因特网的数据。)


就在这两天,一家7人团队公司(Triplegangers)站点突然停机,CEO和员工赶紧调查问题到底出在哪里。


没有查清楚,一查吓了一跳。


OpenAI的GPTBot是罪魁祸首。


根据CEO的描述,OpenAI爬虫的“攻击”有点疯狂:


我们拥有超过65000种产品,每种产品都有一个页面,然后每个页面至少有三张图片。


OpenAI正在发送数以万计的服务器请求,试着下载所有内容,包含数十万张照片及其详细说明。



在分析了上周企业的日志后,团队进一步发现OpenAI已经使用了不仅仅是600个IP地址抓取数据。




如此大规模的爬虫,导致该公司网站停机,CEO甚至无奈地表示:


它基本上是一场比赛DDoS攻击



更重要的是,由于OpenAI疯狂爬虫,CPU的使用和数据下载活动也会引起很多,从而导致网站在云计算服务中。(AWS)能源消耗急剧增加,费用将大幅上升……


嗯,AI大公司疯狂爬虫,却由小企业买单。


这个小团队的经历也引起了很多网友的讨论。有人认为GPTBot的做法不是抓取,更像是抓取。“盗窃”委婉的说法:



还有网友表示有类似的经历,自打阻止了大公司大量的AI爬虫,省下一大笔钱



被爬虫到停机,还不清楚被爬走了什么?


那OpenAI为什么要爬虫这个创业公司的数据呢?


简而言之,它的家庭数据的确属于高质量的那一类。


据悉,Triplegangers的7名成员已经花了十多年的时间,建立了一个声称数据库中最大的“人类数字孪生”


该网站包括从实际人类模型中扫描的3D图像文件,并且照片还有详细的标签,包括种族、年龄、纹身和疤痕,以及各种身材等信息。


对于3D艺术家、游戏制作者等,需要数字化再现真实人类特征,无疑具有重要价值。



虽然Triplegangers网站上有一个服务条款页面,里面明确写着禁止AI未经许可抓取他们家的图片。


但是从目前的结果来看,这一点也没有起到任何作用。


关键在于,Triplegangers没有正确配置文档。——Robot.txt


Robot.txt又称机器人排除协议,是通知搜索引擎网站在搜索网络时不要抓取任何内容而建立的。


换言之,如果一个网站不想被OpenAI爬虫,那么Robot必须正确配备。.txt文档,还有特定的标签,明确告诉GPTBot不要浏览这个网站。


但是OpenAI除了GPTBot之外,ChatGPT-UserOAI-SearchBot,他们还有相应的标签:



而根据OpenAI官方发布的爬虫信息,即使你立即正确设置了Robotot,.txt文档,也不会立即生效。


因为OpenAI识别更新这份文件可能需要24小时…


CEO老哥对此表示:


假如一个网站没有正确配备Robot.txt文档,那么OpenAI和其他公司会认为他们可以随意抓取内容。


它不是一个可选系统。



正因为如此,Triplegangers的网站在运行期间被搞停机,而且还赶上了高昂的AWS费用。


截至本周三美东时间,Triplegangers已按要求配备正确的Robotot。.txt文档。


为了防止Barkrowler和Bytespider等其他AI爬虫,团队还设立了Cloudflare帐户。



虽然Triplegangers在周四开始工作时没有再次停机,但CEO兄弟仍然有一个悬而未决的困惑。——


不知OpenAI从网站上爬了什么数据,也不能联系OpenAI…


而且让CEO老哥更加担心的是:


假如GPTBot没有“贪婪”到让我们的网站停机,我们可能不知道它一直在捕获我们的数据。


即使AI大公司说可以配置Robotot,这个过程也是有bug的。.txt可以防止爬虫,但是你把责任推到我们身上。



最后,CEO老哥也呼吁众多在线公司,如果想要避免未经许可的大型企业爬虫,必须积极、积极地去发现问题。


并非第一例


但是Triplegangers并不是第一家因OpenAI疯狂爬虫而导致停机的企业。


以前,还有Game UI Database这个公司。


该系统包含了超过56000张游戏操作界面截图的在线数据库,供游戏设计者参考。


有一天,团队发现网站加载速度变慢,页面加载时间增加了三倍。客户经常犯502个错误,首页每秒重新加载200次。


起初,她们还以为是被DDoS攻击,结果一查日志…是OpenAI,每秒查询两次,导致网站几乎瘫痪。



但是你认为OpenAI是唯一一个如此疯狂的爬虫吗?


非也,非也。


比如Anthropic类似的事情以前也被曝光过。


数码产品工作室PlanetaryJoshua的创始人 Gross曾经说过,他们为客户重新设计的网站上线后,流量急剧增加,导致客户云成本翻倍。


经过审计发现,大量的流量来自于抓取机器人,主要是由于Anthropic造成的无意义流量,大量的请求都回到了404错误。



针对这一现象,一项来自数字广告公司DoubleVerify的新研究表明,AI爬虫在2024年 “一般无效流量”(不是来自真实用户的流量)每年增加86%。


那AI公司,尤其是大型企业,为什么要如此疯狂地“吸入”网络上的数据呢?


总之,他们缺乏高质量的训练数据。


一些研究估计,到2032年,全球可用的AI培训数据将会耗尽,这使得AI公司加快了数据收集速度。


正因为如此,OpenAI谷歌等AI公司为了获得更多AI培训中使用的“独家”视频,现在正在向UP所有者大量购买“从未公开过”的视频。


如果是为了YouTubee,连价格都标好了,、未发布的视频,Instagram和TikTok,每分钟出价1~2美元。(整体价格一般为1~4美元),而且根据视频质量和格式的不同,价格可以再次上涨。



参考链接:


[1]https://techcrunch.com/2025/01/10/how-openais-bot-crushed-this-seven-person-companys-web-site-like-a-ddos-attack/


[2]https://www.reddit.com/r/webscraping/comments/1bapx0j//how_did_openai_scrap_the_entire_internet_for/


[3]https://www.marktechpost.com/2023/08/10/openai-introduces-gptbot-a-web-crawler-designed-to-scrape-data-from-the-entire-internet-automatically/


[4]https://platform.openai.com/docs/bots/overview-of-openai-crawlers


[5]https://www.businessinsider.com/openai-anthropic-ai-bots-havoc-raise-cloud-costs-websites-2024-9


本文来自微信微信官方账号 “量子位”(ID:QbitAI),作者:关注前沿技术,授权发布36氪。


本文仅代表作者观点,版权归原创者所有,如需转载请在文中注明来源及作者名字。

免责声明:本文系转载编辑文章,仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布,请及时与我们联系进行审核处理或删除,您可以发送材料至邮箱:service@tojoy.com