llm-jp-modernbert: A Modern BERT Model Trained on a Large-Scale Japanese Corpus with Support for Long Context Lengths
💡
原文英文,约100词,阅读约需1分钟。
📝
内容提要
本研究提出了一种名为llm-jp-modernbert的现代BERT模型,旨在解决大规模语料库和长上下文的预训练问题。该模型在8192个标记的上下文长度上进行训练,尽管在下游任务中未超越现有基线,但在填充掩码评估中表现良好。
🎯
关键要点
- 本研究提出了一种名为llm-jp-modernbert的现代BERT模型。
- 该模型旨在解决大规模语料库和长上下文的预训练问题。
- 模型在8192个标记的上下文长度上进行训练。
- 尽管在下游任务中未超越现有基线,但在填充掩码评估中表现良好。
- 研究通过伪困惑度实验分析了上下文长度扩展的效果。
- 深入研究了训练过程中句子嵌入的变化。
➡️