OpenAI疯狂爬虫,把一家公司都给爬宕机了,CEO:堪比DDoS

AIGC动态3天前发布 QbitAI
141 0 0
OpenAI疯狂爬虫,把一家公司都给爬宕机了,CEO:堪比DDoS

 

文章摘要


【关 键 词】 数据抓取网站宕机资源消耗AI训练数据保护

OpenAI的GPTBot因其大规模数据抓取行为导致一家名为Triplegangers的小型公司网站宕机。该公司拥有超过65000种产品,每个产品页面至少包含三张图片,而OpenAI的机器人试图下载所有内容,包括数十万张照片及其详细描述。分析日志后,团队发现OpenAI使用了超过600个IP地址进行数据抓取。这种规模的爬虫行为不仅导致网站宕机,还引起了大量CPU使用和数据下载活动,导致云计算服务(AWS)资源消耗剧增,费用大幅增长。

Triplegangers的数据库被认为是最大的“人类数字孪生”数据库之一,包含从实际人类模型扫描的3D图像文件和详细标签,对3D艺术家和游戏制作者具有重要价值。尽管网站上有服务条款明确禁止未经许可的AI抓取图片,但Triplegangers没有正确配置robots.txt文件,导致OpenAI的爬虫行为未受限制。CEO表示,如果网站没有正确配置robots.txt文件,OpenAI和其他公司会认为可以随意抓取内容。

Triplegangers最终配置了正确的robots.txt文件,并设置了Cloudflare账户以阻止其他AI爬虫。尽管如此,CEO仍对OpenAI爬取的数据内容和无法联系OpenAI表示担忧。他强调,如果不是因为GPTBot导致网站宕机,他们可能不会意识到数据被爬取的问题,认为这个过程存在缺陷。

这不是首例因OpenAI爬虫导致宕机的事件。Game UI Database也因类似原因遭受过影响。此外,Anthropic等其他AI公司也被曝出过类似行为。数字广告公司DoubleVerify的研究表明,AI爬虫在2024年导致“一般无效流量”增加了86%。AI公司,尤其是大模型公司,之所以如此疯狂地收集数据,是因为它们急需高质量的数据来训练AI。预计到2032年,全球可用的AI训练数据可能耗尽,促使AI公司加快数据收集速度。OpenAI和谷歌等公司甚至向UP主们重金求购未公开的视频,以获取更多独家视频用于AI训练。

“极客训练营”

原文和模型


【原文链接】 阅读原文 [ 1680字 | 7分钟 ]
【原文作者】 量子位
【摘要模型】 moonshot-v1-32k
【摘要评分】 ★★★☆☆

© 版权声明
“绘蛙”

相关文章

暂无评论

暂无评论...