小红花·文摘

本文探讨了语言模型中的重复生成问题，提出了加权标签平滑和重复评分方法，评估结果优于基线。研究表明，重复构造降低信息负荷，反复数据损害模型性能。通过自动度量评估信息冗余，开发去重工具以提高模型准确性。

BriefGPT - AI 论文速递 ·

研究表明，现有语言模型数据集中存在大量重复示例，导致模型输出中超过1%的内容直接复制自训练数据。为提高模型准确性和减少冗余数据，开发了新的去重算法，显著提升了数据识别效果和模型公平性，同时增强了隐私安全性。

BriefGPT - AI 论文速递 ·

研究表明，现有语言模型数据集中存在大量重复示例，导致模型输出中超过1%的内容直接复制。为此，开发了去重工具以提升模型准确性。此外，研究探讨了子词切分在多语言建模中的作用，发现其对模型性能有显著影响，并提出了优化分词的最佳方案。

BriefGPT - AI 论文速递 ·