每周宕机数十次，CEO 控诉“防护措施天天失效”：开源界正遭受 AI 公司的暴击

1,454 0 0

文章摘要

多个开源社区近期面临AI 爬虫大规模抓取资源的问题，导致服务器频繁宕机或性能严重下降。SourceHut、GNOME、KDE、Inkscape、Fedora等社区纷纷发声，呼吁外界关注这一问题。SourceHut创始人Drew DeVault在其博文中详细描述了与AI爬虫的“交锋”经历，指出这些爬虫不遵守“robots.txt”协议，也不尊重流量限制，甚至访问极耗费系统资源的链接。DeVault表示，他近期的20%～100%工作时间都被迫花在与这些爬虫的对抗上，导致多个高优先级任务被耽搁数周甚至数月。

开源社区的真实用户也受到严重影响，防护策略无法可靠地区分真实用户与爬虫。DeVault提到，他的“系统管理员朋友们”都遭遇了相同的困扰，LLM爬虫令所有开源项目措手不及。KDE、GNOME等社区也面临相似情况，被迫实施临时流量限制或部署防御工具。GNOME部署的“Anubis”系统通过Proof-of-Work挑战来阻止爬虫，但也给普通用户带来困扰。Fedora社区为保持其Pagure代码托管平台的稳定，不得已屏蔽了大量可疑IP段，甚至封禁整个国家的访问请求。

Inkscape项目也表示，大量AI爬虫使用“假冒浏览器UA”或完全无视网站防爬协议，相关维护者被迫持续扩充黑名单。Frama软件公司的BigGrizzly也曾被一个恶意的LLM爬虫淹没，并建立了一个包含46万个可疑IP的列表。开源去中心化社群Diaspora的维护者Dennis Schubert提到，过去60天内Diaspora的网站与文档服务共收到1130万次请求，其中近70%来自OpenAI的GPTBot、Amazonbot、ClaudeBot等AI爬虫。Schubert指出，这些爬虫不仅反复抓取同样的页面，还爬到维基的每条历史编辑记录、每次diff修改上，导致服务器性能飙升、宕机频发。

开源平台Read the Docs屏蔽所有AI爬虫后，其网站流量从每天800GB直接降至200GB，节省了约1500美元/月的运营成本。DeVault在博文最后抨击了包括加密货币、谷歌团队、硅谷AI公司在内的多方，认为他们统统在把自己的成本“推给别人”，消耗社会公共资源。开源社区似乎进退两难，一方面开源文化强调开放协作，不可能对普通用户关闭文档、仓库访问；另一方面，社区往往没有雄厚的商业赞助来维持昂贵的带宽和服务器，现阶段也只能依赖PoW、黑名单、甚至大范围封禁等手段来暂时缓解问题。

面对来势汹汹的AI爬虫浪潮，各大开源项目都在积极探索更高效、对普通用户更友好的解决方案。但无论如何，这都会是一个长期博弈的过程，涉及到行业规范、AI爬虫自律以及社区共同行动。