如何利用1%的数据优化特定领域LLM预训练? | EMNLP'24 - 晓飞的算法工程笔记
原文中文,约2300字,阅读约需6分钟。发表于: 。来源:晓飞的算法工程笔记 公众号,转载请注明出处 论文: Target-Aware Language Modeling via Granular Data Sampling 论文地址:https://arxiv.org/abs/2409.14705 创新点 提出了一种将预先训练好的标记符与多粒度标记
该论文提出了一种新算法,通过结合多粒度标记符和预训练标记符,生成高效的n-gram特征,提升特定任务的模型性能,同时保持其他任务的有效性。利用重要性抽样技术,从大规模数据集中选择与目标相似的样本,优化语言模型的预训练过程。