TiC-LM:一个用于时间连续大型语言模型预训练的网络规模基准

This paper was accepted to the ACL 2025 main conference as an oral presentation. This paper was accepted at the Scalable Continual Learning for Lifelong Foundation Models (SCLLFM) Workshop at...

本文探讨了如何评估和更新大型语言模型(LLMs),以解决历史数据过时的问题。我们引入了基于114个Common Crawl数据集的时间连续预训练数据集,并设计了时间分层评估方法。研究表明,自回归元调度结合固定比例的旧数据重放,可以在计算上显著节省,同时保持与从头训练相当的效果。不同领域对新旧数据的平衡需求各不相同。

TiC-LM:一个用于时间连续大型语言模型预训练的网络规模基准
原文英文,约200词,阅读约需1分钟。发表于:
阅读原文