小红花·文摘

本研究提出了一种基于多样性的数据选择策略，利用稀疏自编码器衡量数据多样性，以优化大型语言模型的调优过程。该方法提高了模型可解释性，训练效果优于其他方法，降低了成本，并有助于更好地控制模型行为。