DataComp-LM: 寻找下一代语言模型训练集

💡 原文中文,约400字,阅读约需1分钟。
📝

内容提要

本文介绍了一种基于无损数据压缩的评估方法,用于测试模型训练截断后的预测能力广义化情况。实验测试了14种大型语言模型,发现Mistral和Llama-2模型在性能和鲁棒性方面表现良好。同时,上下文大小和标记化实现对整体压缩性能有很大影响。

🎯

关键要点

  • 提出了一种基于无损数据压缩的评估方法,用于测试模型训练截断后的预测能力广义化情况。
  • 收集了从2017年到2023年的83个月的全面测试数据,并根据模型的训练数据截断将数据分为训练和测试期。
  • 通过测试期的压缩性能作为对未见数据广义化的度量,以及训练期和测试期之间的性能差距作为鲁棒性的度量来进行测量。
  • 实验测试了14种具有各种规模的代表性大型语言模型,包括维基百科、新闻文章、代码、arXiv论文和多模态数据。
  • 许多模型的压缩率在其截断日期后显著降低,但Mistral和Llama-2等模型在性能和鲁棒性之间取得了良好的平衡。
  • 模型在新闻和代码数据上很难广义化,但在arXiv论文上表现特别好。
  • 上下文大小和标记化实现对整体压缩性能有很大影响。
🏷️

标签

➡️

继续阅读