小红花·文摘

本文探讨了语言模型中的重复生成问题，提出了加权标签平滑和重复评分方法，评估结果优于基线。研究表明，重复构造降低信息负荷，反复数据损害模型性能。通过自动度量评估信息冗余，开发去重工具以提高模型准确性。