Common Crawl声称其数据集“对任何人免费”,但独立研究者和学生因存储和计算成本难以承担,导致“免费”变得不真实。开放数据应真正可及,而非仅限于有资源的用户。
ChatGPT的成功引起了国内公司对语言模型的关注,但他们面临获取训练数据的问题。一种解决方案是购买数据或招聘爬虫工程师,但这些方法都存在限制。然而,名为Common Crawl的项目提供了免费获取600亿个网站数据的机会,覆盖40多种语言,时间跨度从2008年至今。数据存储在亚马逊S3上,可通过HTTP直接下载,包括原始HTML代码和提取出的纯文本。用户可以按时间段下载并解压缩文件,然后使用程序解析数据。这个项目为训练大型语言模型提供了宝贵的资源。
完成下面两步后,将自动完成登录并继续当前操作。