本文提出了一种基于影响子集选择(ISS)的方法,通过优化数据选择和混合,显著提升大型语言模型的性能并降低训练成本。研究强调了数据多样性的重要性,并提出基于k-means聚类的优化方法,实现了7%的性能提升。
本文探讨了利用无标签开放数据进行语言模型的预训练和微调,提出了一种基于影响子集选择(ISS)的方法,以降低领域特定数据需求并提高训练效率。研究表明,使用小规模数据集可获得与大型模型相媲美的性能,并通过自主数据选择和优化算法显著提升模型在数学推理等任务中的能力。
完成下面两步后,将自动完成登录并继续当前操作。