💡 原文中文,约800字,阅读约需2分钟。
📝

内容提要

维基百科因AI爬虫大量抓取内容,发布优化数据集供AI公司下载,以减少对其网站的抓取。该数据集包含英语和法语版本,托管在谷歌Kaggle,旨在支持机器学习工作流程。

🎯

关键要点

  • 维基百科因AI爬虫大量抓取内容,发布优化数据集供AI公司下载。
  • 该数据集包含英语和法语版本,托管在谷歌Kaggle。
  • 数据集旨在支持机器学习工作流程,方便AI开发者进行建模和分析。
  • 维基媒体因AI爬虫消耗大量服务器资源,导致运营成本上升。
  • 数据集截止日期为2025年4月15日,内容包括研究摘要、简短描述、图像连接等。
  • 维基百科希望通过发布数据集减少对其网站的抓取,改善现状。
➡️

继续阅读