助力大语言模型训练,无压力爬取六百亿网页
原文中文,约2600字,阅读约需7分钟。发表于: 。ChatGPT一炮而红,让国内很多公司开始做大语言模型。然后他们很快就遇到了第一个问题,训练数据怎么来。有些公司去买数据,有些公司招聘爬虫工程师。但如果现在才开发爬虫,那恐怕已经来不及了。 即使爬虫工程师非常厉害,可以破解任意反爬虫机制,可以让爬虫跑满网络带宽,可是要训练出GPT-3这种规模的大语言模型,这个数据并不是一天两天就能爬完的。并且,有很多老网站的数据,早就被删除了,爬虫想爬也爬不...
ChatGPT的成功引起了国内公司对语言模型的关注,但他们面临获取训练数据的问题。一种解决方案是购买数据或招聘爬虫工程师,但这些方法都存在限制。然而,名为Common Crawl的项目提供了免费获取600亿个网站数据的机会,覆盖40多种语言,时间跨度从2008年至今。数据存储在亚马逊S3上,可通过HTTP直接下载,包括原始HTML代码和提取出的纯文本。用户可以按时间段下载并解压缩文件,然后使用程序解析数据。这个项目为训练大型语言模型提供了宝贵的资源。