LongWanjuan: 往长文本质量的系统测量

💡 原文中文,约400字,阅读约需1分钟。
📝

内容提要

本文介绍了一种评估长文本质量的指标,并提出了专为增强语言模型在长文本任务上训练而设计的双语数据集。通过详细分析长文本,可以显著提高模型在长文本任务上的表现。

🎯

关键要点

  • 本文介绍了一种评估长文本质量的指标。
  • 评估维度包括连贯性、凝聚性和复杂性。
  • 引入了一套度量指标,包括统计和预训练语言模型为基础的指标。
  • 提出了 LongWanjuan,一个专为增强语言模型在长文本任务上训练的双语数据集,包含超过 160B 的标记。
  • LongWanjuan 中的长文本被划分为整体性、聚合性和混乱性三种类型。
  • 设计了一种数据混合配方,平衡不同类型的长文本,显著提高模型表现。
➡️

继续阅读