Hugging Face发布了FineTranslations数据集,包含超过1万亿个平行文本标记,涵盖英语及500多种语言,旨在改善机器翻译,尤其是英语到低资源语言的翻译。数据集来源于FineWeb2,经过严格筛选和处理,确保质量,可通过Hugging Face访问,支持大规模处理。
本研究提出了XMP数据集,以解决多语言对话系统中高质量数据集不足的问题。该数据集包含多方播客对话的平行文本样本,旨在推动大型语言模型在复杂对话场景中的表现机制研究。
完成下面两步后,将自动完成登录并继续当前操作。