谢乾坤|青南 ·

助力大语言模型训练，无压力爬取六百亿网页

💡 原文中文，约2600字，阅读约需7分钟。

📝

内容提要

ChatGPT的成功引起了国内公司对语言模型的关注，但他们面临获取训练数据的问题。一种解决方案是购买数据或招聘爬虫工程师，但这些方法都存在限制。然而，名为Common Crawl的项目提供了免费获取600亿个网站数据的机会，覆盖40多种语言，时间跨度从2008年至今。数据存储在亚马逊S3上，可通过HTTP直接下载，包括原始HTML代码和提取出的纯文本。用户可以按时间段下载并解压缩文件，然后使用程序解析数据。这个项目为训练大型语言模型提供了宝贵的资源。

🎯

关键要点

ChatGPT的成功引起国内公司对语言模型的关注，但面临训练数据获取问题。
购买数据或招聘爬虫工程师是常见解决方案，但存在时间和数据可用性限制。
Common Crawl项目提供免费获取600亿网站数据的机会，覆盖40多种语言，数据从2008年至今。
数据存储在亚马逊S3上，可以通过HTTP直接下载，用户只需浏览器或Linux中的wget命令。
Common Crawl语料库包含原始网页数据、提取的元信息和纯文本，数据量庞大且完全免费。
用户可以按时间段下载数据，避免一次性下载过大的数据。
下载WARC文件后，可以使用gunzip命令解压缩，得到包含网站元信息和HTML的文本文件。
WET文件提供粗糙的正文提取，用户可使用其他工具提高提取效果。
Common Crawl是一个良心网站，提供大量免费数据，助力国内大模型的发展。

🏷️

继续阅读

LWiAI播客第242期 - ChatGPT图像2.0，Qwen 3.6 Max，Kimi-K2.6
本期播客讨论了最新的AI新闻，包括OpenAI发布的ChatGPT图像2.0模型，生成文本和截图的能力显著提升；阿里巴巴推出Qwen 3.6 Max，转为...
早报｜苹果：下季度内存成本压力将显著加大/宇树最便宜人形机器发布/5月1日高速车流或创历史纪录
iPhone 18 Pro预计将进行重大相机升级，配备可变光圈和新Siri模式，用户可通过AI服务提问。苹果毛利率创历史新高，但内存成本压力加大。三星Q1...
营收破千亿、装机量超 25 亿，苹果交出史上最强三月季度答卷
【TechWeb】5月1日消息，据外媒报道，苹果发布 2026 财年第二季度（自然年第一季度）财报，并召开财报电话会议，宣布本季度创下史上最佳三月季度业绩...
在Aurora中对大型表执行ALTER TABLE
最近，一位客户的数据库表的auto_increment值接近最大容量。为避免超限，建议将数据类型从INT UNSIGNED更改为BIGINT。在使用pt-...
Rust 实现的 Code Plan (Token Plan) 套餐余量桌面小工具
Code Plan (Token Plan) 套餐余量桌面小工具一款轻量级桌面小工具，用于实时监控各大平台的 Code Plan(Token Plan)...
亨丽埃塔·多姆布罗夫斯卡娅：PG DATA 2026。我最期待的演讲。第二部分
PG DATA 2026会议将邀请多位演讲者分享PostgreSQL的实际经验和技术，包括多租户数据库安全、存储可视化和真实产品经验等。会议内容涵盖数据库...

助力大语言模型训练，无压力爬取六百亿网页

内容提要

关键要点

标签

继续阅读