小红花·文摘

本文探讨了通过适应标记器和领域自适应数据选择方法（TextGram）来优化预训练语言模型的性能，特别是在文本分类和跨语言翻译任务中的应用。研究表明，分词设计对大型语言模型（LLMs）至关重要，并提出了相应的优化策略。此外，介绍了开源模型InternLM2在生物医学和计算机科学领域的优越性，表现优于BERT BASE模型。