为训大模型不择手段的 AI 公司，打破了这个古老的互联网协议

AIGC动态2年前 (2024)发布 geekpark

2,549 0 0

作者信息

【原文作者】 极客公园
【作者简介】 用极客视角，追踪你最不可错过的科技圈。欢迎关注播客（小宇宙App）👉开始连接LinkStart
【微信号】 geekpark

文章摘要

【关键词】 robots.txt

这篇文章探讨了互联网上一个名为robots.txt的文件，它允许网站管理员控制哪些爬虫可以访问他们的网站。这个文件自1994年以来一直是互联网的一个非正式规则，但随着人工智能（AI）的兴起，这个规则开始受到挑战。

文章首先介绍了robots.txt文件的起源和作用。这个文件允许网站管理员指定哪些搜索引擎和其他类型的爬虫可以访问他们的网站，以及可以访问哪些部分。这种机制是基于一种非正式的“握手协议”，即网站允许爬虫访问，以换取在搜索引擎结果中的可见性。这种协议在很大程度上依赖于爬虫遵守规则的善意。

然而，随着AI技术的发展，越来越多的公司开始使用爬虫从网站上提取数据，用于训练他们的AI模型。这些公司并不像搜索引擎那样为网站提供流量回报，这导致了数据拥有者的不满。例如，OpenAI的ChatGPT模型就是使用大量网络数据训练的，这引起了一些出版商的反对，他们认为这种做法类似于偷窃。

文章提到，尽管许多网站开始在robots.txt文件中禁止AI爬虫，但这种做法可能只是短期的胜利。因为AI可能会成为搜索的未来，长期阻止AI爬虫可能会对网站不利。此外，robots.txt文件并非法律文件，它依赖于爬虫遵守规则的善意，但并非所有爬虫都会遵守。

最后，文章提出了一个问题：是否需要新的规则来管理爬虫，以便更精确地控制被抓取的内容和用途。这可能包括对抓取行为的法律监管，以及为网站管理员提供更强的工具来管理他们的数据。

总的来说，这篇文章讨论了AI如何挑战了互联网上一个长期存在的非正式规则，并引发了关于如何平衡数据使用和保护的讨论。随着AI技术的不断发展，这个问题可能会变得更加复杂和紧迫。