通过最大化语义空间中的信息增益实现自动数据选择的指令调整方法

📝

内容提要

本研究解决了指令调整数据集中的数据质量和多样性不足的问题,尤其是在海量开放源代码数据集中。我们提出了一种统一的方法,通过构建标签图量化数据集的信息内容,并基于此引入有效的采样方法来最大化语义空间中的信息增益(MIG),实验结果显示该方法优于现有最先进的方法,显著提升了模型的性能。

➡️

继续阅读