量子位 ·

OpenAI疯狂爬虫，把一家公司都给爬宕机了，CEO：堪比DDoS

💡 原文中文，约3300字，阅读约需8分钟。

📝

内容提要

OpenAI的GPTBot因大量爬虫请求导致小公司Triplegangers网站宕机，CEO形容其如同DDoS攻击。尽管有禁止爬虫的条款，但因robots.txt配置不当，未能有效阻止爬虫。这一事件引发了对AI公司爬虫行为的广泛讨论。

🎯

关键要点

OpenAI的GPTBot因大量爬虫请求导致小公司Triplegangers网站宕机，CEO形容其如同DDoS攻击。
Triplegangers网站包含高质量的3D图像文件，数据对3D艺术家和游戏制作者具有重要价值。
Triplegangers网站的robots.txt配置不当，未能有效阻止OpenAI的爬虫。
OpenAI的爬虫使用了超过600个IP地址，导致网站资源消耗剧增，开销大幅增长。
Triplegangers在宕机后配置了正确的robots.txt文件，并设置了Cloudflare账户以防止其他AI爬虫。
Triplegangers并不是第一个因OpenAI爬虫导致宕机的公司，Game UI Database也遭遇过类似问题。
AI公司急需高质量数据用于训练，导致其加快数据收集速度。
OpenAI等公司正在向UP主们重金求购未公开的视频，以获取更多独家数据。

❓

延伸问答

OpenAI的GPTBot为什么导致Triplegangers网站宕机？

因为GPTBot发送了大量请求，试图下载Triplegangers网站上的所有内容，导致服务器资源消耗剧增，最终导致网站宕机。

Triplegangers网站的robots.txt配置有什么问题？

Triplegangers网站的robots.txt配置不当，未能有效阻止OpenAI的爬虫访问，导致数据被抓取。

Triplegangers网站的内容对谁有价值？

Triplegangers网站包含高质量的3D图像文件，对3D艺术家和游戏制作者具有重要价值。

OpenAI爬虫的行为引发了哪些讨论？

许多人认为OpenAI的爬虫行为类似于“偷窃”，并讨论了大公司对小公司的影响和责任问题。

Triplegangers如何防止未来的爬虫攻击？

Triplegangers配置了正确的robots.txt文件，并设置了Cloudflare账户来阻止其他AI爬虫。

OpenAI爬虫使用了多少个IP地址？

OpenAI的爬虫使用了超过600个IP地址进行数据抓取。

🏷️

继续阅读

蒂姆·费里斯秀文字记录：埃拉德·吉尔，帝国建设者的顾问——如何在其他人之前发现十亿美元公司，模糊的AI前沿，可口可乐如何击败百事，何时共识获利，以及更多内容 (#863)
Elad Gil在访谈中讨论了AI领域的最新动态，包括Meta对AI人才的争夺和计算能力的限制。他指出，AI公司薪酬激增类似于IPO，导致人才流动和市场变...
埃隆·马斯克确认xAI使用OpenAI的模型来训练Grok
埃隆·马斯克在加州法庭作证称，他的AI初创公司xAI使用了OpenAI的模型来提升技术。他提到“模型蒸馏”是行业常见做法，允许大型AI模型作为“教师”训练...
解读OpenAI与微软的重置：为何AWS可能会占据优势
OpenAI与微软的合作关系经历波折，最近宣布与亚马逊云服务（AWS）建立新合作，允许OpenAI的模型在AWS上运行。这一变化使OpenAI能够在多个云...
埃隆·马斯克与山姆·阿尔特曼关于OpenAI未来的法律斗争
埃隆·马斯克与山姆·阿尔特曼之间的法律斗争即将开始，涉及OpenAI的未来。马斯克指控OpenAI偏离了最初使命，追求利润，并要求解除阿尔特曼和布罗克曼的...
微软与OpenAI新协议的详细解析
微软与OpenAI达成新协议，允许OpenAI在所有云平台上提供服务，尽管与亚马逊的合作令微软不满。协议取消了与人工通用智能（AGI）相关的条款，使双方关...
Meta公司放弃开源Llama，转向专有的Muse Spark
Meta公司宣布其新AI模型Muse Spark将取代已被放弃的Llama。Muse Spark采用全新架构，无法与Llama迁移，Llama用户需寻找替...