本研究提出了CLIMB框架,解决了预训练数据集缺乏领域划分的问题。CLIMB能够自动发现和优化数据混合,训练的1亿模型在特定领域(如社会科学)上性能提升5%,超越了Llama-3.2-1B。
本研究提出Mixtera数据平面,解决训练数据集增长导致的样本管理问题,允许用户自定义样本使用比例和顺序。研究表明,Mixtera有效支持数据混合策略,提升模型训练的准确性。
本研究提出了一种细粒度主题的数据混合策略,旨在提升大语言模型在“科学”和“关系”主题上的表现,解决预训练数据的质量和多样性问题。
完成下面两步后,将自动完成登录并继续当前操作。