小红花·文摘

本文提出了一种评估训练数据完整性的方法，强调低质量输入提示会导致高方差和低质量响应。通过拒绝指令偏好（RIP）方法，可以过滤低质量提示或生成高质量合成数据集，从而显著提升模型在多个基准测试中的性能。