💡
原文英文,约500词,阅读约需2分钟。
📝
内容提要
Hugging Face发布了FineTranslations数据集,包含超过1万亿个平行文本标记,涵盖英语及500多种语言,旨在改善机器翻译,尤其是英语到低资源语言的翻译。数据集来源于FineWeb2,经过严格筛选和处理,确保质量,可通过Hugging Face访问,支持大规模处理。
🎯
关键要点
- Hugging Face发布了FineTranslations数据集,包含超过1万亿个平行文本标记,涵盖英语及500多种语言。 未点亮
- 数据集旨在改善机器翻译,特别是英语到低资源语言的翻译。 未点亮
- FineTranslations数据集来源于FineWeb2,通过Gemma3 27B翻译非英语内容生成,数据生成流程可重复且公开文档化。 未点亮
- 数据集提供的大规模平行数据适合用于微调现有翻译模型。 未点亮
- 内部评估显示,生成的英语文本在英语单一模型训练中表现与FineWeb相似,数据可用于翻译以外的任务。 未点亮
- Hugging Face报告称,生成的英语语料保留了源语言的文化和上下文信息。 未点亮
- FineWeb2汇聚了2013至2024年间的多语言网络内容,减少了对高度重复或特定领域材料的偏向。 未点亮
- 翻译使用datatrove框架进行大规模处理,确保高效的GPU利用率和上下文保留。 未点亮
- 每个数据集条目包括对齐的原始和翻译文本块、语言和脚本标识符、标记计数、质量和教育分数。 未点亮
- FineTranslations现已在Hugging Face上发布,采用Open Data Commons Attribution (ODC-By) v1.0许可证。 未点亮
🏷️