小红花·文摘

本研究提出了一种结构多样性的训练方法，以改善NLP模型的普适性和样本效率。通过分析数据集大小和模型参数，发现Task2Vec多样性系数能够有效衡量预训练数据集的多样性。此外，研究还提出了一种新方法来评估文本质量，从而提高训练效率，实验结果显示在多个模型和数据集上均有显著提升。

ScalingFilter：通过缩放法则的逆利用评估数据质量

BriefGPT - AI 论文速递 ·

本文探讨了自然语言生成（NLG）系统的多样性评估方法，提出了多样性度量指标及其参数关系。研究表明，结构多样化训练能够提高样本效率和多样性。使用Task2Vec多样性系数评估预训练数据集的多样性，发现其与潜在概念数量成正比。同时，研究强调在训练大型语言模型时需谨慎使用前辈生成文本，以避免降低语言多样性。

通过链式规格提示提高黑箱语言模型的结构多样性

BriefGPT - AI 论文速递 ·