OpenAI疯狂爬虫,把一家公司都给爬宕机了,CEO:堪比DDoS

💡 原文中文,约3300字,阅读约需8分钟。
📝

内容提要

OpenAI的GPTBot因大量爬虫请求导致小公司Triplegangers网站宕机,CEO形容其如同DDoS攻击。尽管有禁止爬虫的条款,但因robots.txt配置不当,未能有效阻止爬虫。这一事件引发了对AI公司爬虫行为的广泛讨论。

🎯

关键要点

  • OpenAI的GPTBot因大量爬虫请求导致小公司Triplegangers网站宕机,CEO形容其如同DDoS攻击。
  • Triplegangers网站包含高质量的3D图像文件,数据对3D艺术家和游戏制作者具有重要价值。
  • Triplegangers网站的robots.txt配置不当,未能有效阻止OpenAI的爬虫。
  • OpenAI的爬虫使用了超过600个IP地址,导致网站资源消耗剧增,开销大幅增长。
  • Triplegangers在宕机后配置了正确的robots.txt文件,并设置了Cloudflare账户以防止其他AI爬虫。
  • Triplegangers并不是第一个因OpenAI爬虫导致宕机的公司,Game UI Database也遭遇过类似问题。
  • AI公司急需高质量数据用于训练,导致其加快数据收集速度。
  • OpenAI等公司正在向UP主们重金求购未公开的视频,以获取更多独家数据。

延伸问答

OpenAI的GPTBot为什么导致Triplegangers网站宕机?

因为GPTBot发送了大量请求,试图下载Triplegangers网站上的所有内容,导致服务器资源消耗剧增,最终导致网站宕机。

Triplegangers网站的robots.txt配置有什么问题?

Triplegangers网站的robots.txt配置不当,未能有效阻止OpenAI的爬虫访问,导致数据被抓取。

Triplegangers网站的内容对谁有价值?

Triplegangers网站包含高质量的3D图像文件,对3D艺术家和游戏制作者具有重要价值。

OpenAI爬虫的行为引发了哪些讨论?

许多人认为OpenAI的爬虫行为类似于“偷窃”,并讨论了大公司对小公司的影响和责任问题。

Triplegangers如何防止未来的爬虫攻击?

Triplegangers配置了正确的robots.txt文件,并设置了Cloudflare账户来阻止其他AI爬虫。

OpenAI爬虫使用了多少个IP地址?

OpenAI的爬虫使用了超过600个IP地址进行数据抓取。

➡️

继续阅读