小红花·文摘

CLUE发布了100G中文语料库CLUECorpus2020，可用于自监督学习和语言模型预训练。作者还发布了新的中文词汇表和经过预训练的模型，并将其代码和数据集发布在Github上。实验结果表明，训练在此语料库上的模型在中文上表现出色。