助力大语言模型训练,无压力爬取六百亿网页

助力大语言模型训练,无压力爬取六百亿网页

💡 原文中文,约2600字,阅读约需7分钟。
📝

内容提要

ChatGPT的成功引起了国内公司对语言模型的关注,但他们面临获取训练数据的问题。一种解决方案是购买数据或招聘爬虫工程师,但这些方法都存在限制。然而,名为Common Crawl的项目提供了免费获取600亿个网站数据的机会,覆盖40多种语言,时间跨度从2008年至今。数据存储在亚马逊S3上,可通过HTTP直接下载,包括原始HTML代码和提取出的纯文本。用户可以按时间段下载并解压缩文件,然后使用程序解析数据。这个项目为训练大型语言模型提供了宝贵的资源。

🎯

关键要点

  • ChatGPT的成功引起国内公司对语言模型的关注,但面临训练数据获取问题。
  • 购买数据或招聘爬虫工程师是常见解决方案,但存在时间和数据可用性限制。
  • Common Crawl项目提供免费获取600亿网站数据的机会,覆盖40多种语言,数据从2008年至今。
  • 数据存储在亚马逊S3上,可以通过HTTP直接下载,用户只需浏览器或Linux中的wget命令。
  • Common Crawl语料库包含原始网页数据、提取的元信息和纯文本,数据量庞大且完全免费。
  • 用户可以按时间段下载数据,避免一次性下载过大的数据。
  • 下载WARC文件后,可以使用gunzip命令解压缩,得到包含网站元信息和HTML的文本文件。
  • WET文件提供粗糙的正文提取,用户可使用其他工具提高提取效果。
  • Common Crawl是一个良心网站,提供大量免费数据,助力国内大模型的发展。
➡️

继续阅读