蓝点网 ·

开源/自有软件基础设施正在被人工智能破坏大约97%的请求/流量都是爬虫而非真人

💡 原文中文，约1000字，阅读约需3分钟。

📝

内容提要

开源软件基础设施正受到AI爬虫攻击，GNOME网站在2.5小时内接到81,000个请求，其中97%为爬虫。爬虫不遵守robots.txt协议，导致服务器压力增加。GNOME等项目不得不使用Anubi系统拦截爬虫，管理员耗费大量资源应对这一问题。

🎯

🔎

AI爬虫的高频抓取对开源项目造成了严重的资源浪费。GNOME等项目的管理员不仅要应对流量激增，还需投入大量时间和金钱来维护服务器，确保正常用户的访问体验。这种情况可能导致开源项目的可持续性受到威胁，影响其发展和维护。

虽然GNOME采用了Anubi系统来拦截爬虫，但这种方法并非万无一失。误伤真实用户的情况时有发生，且许多爬虫通过模拟真实用户的方式进行访问，使得识别和拦截变得更加困难。这表明，现有的技术手段在应对AI爬虫时存在明显的局限性。

不仅是GNOME，KDE、Fedora等多个开源项目也遭遇了类似的爬虫攻击。这种现象反映了整个开源软件生态系统面临的共同挑战，尤其是在资源有限的情况下，如何有效保护自身基础设施成为亟待解决的问题。

❓

AI爬虫导致开源软件基础设施面临严重的服务器压力，GNOME网站在短时间内接到大量请求，其中97%为爬虫。

GNOME使用名为Anubi的工作流证明系统来拦截AI爬虫，以减少对服务器资源的消耗。

爬虫不遵守robots.txt协议会导致服务器承受过大的压力，影响正常用户的访问体验。

KDE、Fedora、LWN和Frame Software等项目也面临类似的AI爬虫攻击问题。

AI公司通过高频抓取数据来训练模型，这导致目标网站资源的浪费。

已知的爬虫如GPTBot可以通过用户代理（UA）进行拦截，但许多爬虫模拟真实用户，识别和拦截较为困难。

🏷️