小红花·文摘

本研究提出了一种名为llm-jp-modernbert的现代BERT模型，旨在解决大规模语料库和长上下文的预训练问题。该模型在8192个标记的上下文长度上进行训练，尽管在下游任务中未超越现有基线，但在填充掩码评估中表现良好。