AI领域的全面战争，从AI爬虫毁灭互联网开始。

1,477 0 0

文章摘要

【关键词】 AI、爬虫、数据保护、Cloudflare、robots.txt

Triplegangers是一家乌克兰公司，专注于销售高清3D人体模型，这些模型基于真实人类扫描，广泛应用于游戏开发、动画制作等领域。然而，2023年1月，该公司遭遇了一场突如其来的危机：OpenAI的爬虫机器人GPTBot在短短几小时内疯狂爬取了其网站上的数十万张照片和描述，导致服务器崩溃，业务陷入停滞。Triplegangers的创始人Tomchuk发现，尽管公司明确禁止未经许可的爬虫行为，但由于未在robots.txt文件中专门配置针对GPTBot的禁止规则，OpenAI的爬虫得以长驱直入，几乎洗劫了所有数据。更令人无奈的是，Tomchuk无法联系OpenAI要求删除已抓取的数据，甚至无法确定被爬取的具体内容量。

Triplegangers的遭遇并非孤例。2022年夏天，知名维修教程网站iFixit也遭遇了类似情况，Anthropic公司的爬虫ClaudeBot在24小时内访问了近百万次，差点将网站挤爆。尽管iFixit明确禁止其内容用于AI训练，Anthropic的爬虫依然我行我素，甚至回应称“如果网站不想被抓，就应该在robots.txt中明确禁止”。这种“默认允许”的逻辑让许多网站管理员感到无力，尤其是那些缺乏技术团队的小型网站和内容创作者。

robots.txt协议自1994年提出以来，一直是互联网上的一种“君子协定”，旨在通过简单的文本文件告知爬虫哪些内容可以抓取，哪些内容禁止访问。然而，随着AI爬虫的兴起，这一协议的有效性正受到严重挑战。OpenAI、Anthropic等公司虽然声称遵守robots.txt，但实际操作中，只要网站未明确禁止，爬虫便会默认允许抓取，甚至无视网站的明确声明。这种“倒打一耙”的逻辑不仅让网站管理员感到愤慨，也动摇了互联网内容自由流通的信任基础。

在这种背景下，Cloudflare决定采取行动，用AI对抗AI爬虫。他们设计了一种“AI迷宫”策略，通过生成虚假的网页内容和链接，引诱AI爬虫进入一个无意义的循环，消耗其计算资源和带宽，同时不影响正常用户的访问。这种创新的防御方式不仅有效阻止了爬虫的恶意行为，也为网站管理员提供了一种新的保护手段。

AI爬虫的泛滥不仅对网站运营造成了巨大压力，也对内容创作者的权益构成了威胁。如果知识和创意的源头得不到尊重和回报，创新本身将面临枯竭的风险。互联网历史上的类似矛盾，如音乐产业与数字盗版的斗争，新闻出版商与搜索引擎的纠纷，都表明技术发展与内容保护之间的平衡至关重要。在这场AI领域的战争中，如何保护数字领土，维护开放而可信的互联网，成为每一个网民和内容创作者共同面临的挑战。