本研究提出了CLIMB框架,解决了预训练数据集缺乏领域划分的问题。CLIMB能够自动发现和优化数据混合,训练的1亿模型在特定领域(如社会科学)上性能提升5%,超越了Llama-3.2-1B。
本文探讨领域划分,提出“创建xxx”需求可视为聚合根,从而定义领域。通过分析需求复杂性,决定是否合并领域,强调保持边界明确以控制系统复杂度。
完成下面两步后,将自动完成登录并继续当前操作。