量子位 ·

偷数据的AI公司被抓到了

💡 原文中文，约1900字，阅读约需5分钟。

📝

内容提要

Reddit发现AI公司利用Wayback Machine绕过数据限制，非法抓取历史数据进行模型训练，侵犯用户隐私。尽管Reddit已限制API和数据抓取，AI公司仍通过缓存等方式获取数据，导致与Wayback Machine的合作关系面临挑战，数据所有权与AI训练需求的冲突加剧。

🎯

🔎

AI公司通过Wayback Machine抓取Reddit数据的行为，严重侵犯了用户隐私。这种未经授权的数据获取不仅可能导致用户信息泄露，还可能影响用户对平台的信任，进而影响平台的活跃度和用户体验。

Reddit为了保护自身数据权益，已对API政策进行了严格调整，限制了第三方应用的访问。这一举措不仅是对AI公司滥用行为的回应，也可能影响到合法使用其数据的开发者，需关注政策变化对整个生态的影响。

随着AI训练需求的增加，数据所有权和使用边界的冲突愈发明显。平台与AI公司的关系将面临更多挑战，如何平衡数据的开放性与保护用户隐私，将是未来发展的关键议题。

❓

AI公司利用Wayback Machine的存档，绕过Reddit的付费和合规协议，非法抓取历史数据用于模型训练。

Wayback Machine是一个公益性的数字存档工具，旨在保存网页历史版本，允许用户查看网页的历史快照。

Reddit对未经许可的数据抓取行为采取了严格限制，调整了API政策，并限制Wayback Machine对其内容的索引。

AI公司的抓取行为侵犯了用户隐私，可能导致已删除内容的泄露，危及用户的个人信息安全。

Reddit与OpenAI有合作，但在6月对Anthropic提起诉讼，原因是Anthropic在停止抓取后仍继续抓取数据。

数据所有权与AI训练需求之间的冲突加剧，导致平台对数据使用的规则平衡被打破，影响了数据获取的合法性。

🏷️