SMART:指令调优的子模数据混合策略
💡
原文中文,约300字,阅读约需1分钟。
📝
内容提要
我们提出了一种名为LESS的算法,用于估计数据影响并执行低秩梯度相似性搜索。实验表明,使用LESS选中的5%的数据进行训练通常优于全数据集的训练。所选数据具有高度可迁移性。该方法能够识别出在预期的下游应用中体现必要推理技能的数据。
🎯
关键要点
- 提出了一种名为LESS的算法,用于估计数据影响和低秩梯度相似性搜索。
- 实验表明,使用LESS选中的5%的数据进行训练通常优于全数据集的训练。
- 所选数据具有高度可迁移性,可以为不同模型选择有用的数据。
- 定性分析表明,该方法能够识别出在下游应用中体现必要推理技能的数据。
➡️