无监督主题模型是语言预训练模型的数据混合器
💡
原文英文,约100词,阅读约需1分钟。
📝
内容提要
本研究提出了一种细粒度主题的数据混合策略,旨在提升大语言模型在“科学”和“关系”主题上的表现,解决预训练数据的质量和多样性问题。
🎯
关键要点
- 本研究提出了一种细粒度主题的数据混合策略。
- 该策略旨在提升大语言模型在“科学”和“关系”主题上的表现。
- 研究解决了预训练数据的质量和多样性问题。
- 通过多阶段聚类生成语义相似文档的详细主题。
- 显著提升了大语言模型在下游任务上的表现。
- 特别是在“科学”和“关系”主题上取得了显著改进。
- 研究的代码和数据集将公开发布。
➡️