OpenAI疯狂爬虫，把一家公司都给爬宕机了，CEO：堪比DDoS

141 0 0

文章摘要

OpenAI的GPTBot因其大规模数据抓取行为导致一家名为Triplegangers的小型公司网站宕机。该公司拥有超过65000种产品，每个产品页面至少包含三张图片，而OpenAI的机器人试图下载所有内容，包括数十万张照片及其详细描述。分析日志后，团队发现OpenAI使用了超过600个IP地址进行数据抓取。这种规模的爬虫行为不仅导致网站宕机，还引起了大量CPU使用和数据下载活动，导致云计算服务（AWS）资源消耗剧增，费用大幅增长。

Triplegangers的数据库被认为是最大的“人类数字孪生”数据库之一，包含从实际人类模型扫描的3D图像文件和详细标签，对3D艺术家和游戏制作者具有重要价值。尽管网站上有服务条款明确禁止未经许可的AI抓取图片，但Triplegangers没有正确配置robots.txt文件，导致OpenAI的爬虫行为未受限制。CEO表示，如果网站没有正确配置robots.txt文件，OpenAI和其他公司会认为可以随意抓取内容。

Triplegangers最终配置了正确的robots.txt文件，并设置了Cloudflare账户以阻止其他AI爬虫。尽管如此，CEO仍对OpenAI爬取的数据内容和无法联系OpenAI表示担忧。他强调，如果不是因为GPTBot导致网站宕机，他们可能不会意识到数据被爬取的问题，认为这个过程存在缺陷。

这不是首例因OpenAI爬虫导致宕机的事件。Game UI Database也因类似原因遭受过影响。此外，Anthropic等其他AI公司也被曝出过类似行为。数字广告公司DoubleVerify的研究表明，AI爬虫在2024年导致“一般无效流量”增加了86%。AI公司，尤其是大模型公司，之所以如此疯狂地收集数据，是因为它们急需高质量的数据来训练AI。预计到2032年，全球可用的AI训练数据可能耗尽，促使AI公司加快数据收集速度。OpenAI和谷歌等公司甚至向UP主们重金求购未公开的视频，以获取更多独家视频用于AI训练。