
文章摘要
多个开源社区近期面临AI爬虫大规模抓取资源的问题,导致服务器频繁宕机或性能严重下降。SourceHut、GNOME、KDE、Inkscape、Fedora等社区纷纷发声,呼吁外界关注这一问题。SourceHut创始人Drew DeVault在其博文中详细描述了与AI爬虫的“交锋”经历,指出这些爬虫不遵守“robots.txt”协议,也不尊重流量限制,甚至访问极耗费系统资源的链接。DeVault表示,他近期的20%~100%工作时间都被迫花在与这些爬虫的对抗上,导致多个高优先级任务被耽搁数周甚至数月。
开源社区的真实用户也受到严重影响,防护策略无法可靠地区分真实用户与爬虫。DeVault提到,他的“系统管理员朋友们”都遭遇了相同的困扰,LLM爬虫令所有开源项目措手不及。KDE、GNOME等社区也面临相似情况,被迫实施临时流量限制或部署防御工具。GNOME部署的“Anubis”系统通过Proof-of-Work挑战来阻止爬虫,但也给普通用户带来困扰。Fedora社区为保持其Pagure代码托管平台的稳定,不得已屏蔽了大量可疑IP段,甚至封禁整个国家的访问请求。
Inkscape项目也表示,大量AI爬虫使用“假冒浏览器UA”或完全无视网站防爬协议,相关维护者被迫持续扩充黑名单。Frama软件公司的BigGrizzly也曾被一个恶意的LLM爬虫淹没,并建立了一个包含46万个可疑IP的列表。开源去中心化社群Diaspora的维护者Dennis Schubert提到,过去60天内Diaspora的网站与文档服务共收到1130万次请求,其中近70%来自OpenAI的GPTBot、Amazonbot、ClaudeBot等AI爬虫。Schubert指出,这些爬虫不仅反复抓取同样的页面,还爬到维基的每条历史编辑记录、每次diff修改上,导致服务器性能飙升、宕机频发。
开源平台Read the Docs屏蔽所有AI爬虫后,其网站流量从每天800GB直接降至200GB,节省了约1500美元/月的运营成本。DeVault在博文最后抨击了包括加密货币、谷歌团队、硅谷AI公司在内的多方,认为他们统统在把自己的成本“推给别人”,消耗社会公共资源。开源社区似乎进退两难,一方面开源文化强调开放协作,不可能对普通用户关闭文档、仓库访问;另一方面,社区往往没有雄厚的商业赞助来维持昂贵的带宽和服务器,现阶段也只能依赖PoW、黑名单、甚至大范围封禁等手段来暂时缓解问题。
面对来势汹汹的AI爬虫浪潮,各大开源项目都在积极探索更高效、对普通用户更友好的解决方案。但无论如何,这都会是一个长期博弈的过程,涉及到行业规范、AI爬虫自律以及社区共同行动。
原文和模型
【原文链接】 阅读原文 [ 1873字 | 8分钟 ]
【原文作者】 AI前线
【摘要模型】 deepseek-v3
【摘要评分】 ★★★★☆