小红花·文摘

北京人工智能研究院发布了中文语料库互联网数据集，包含1000个重要中文网站的内容，总共104GB。该数据集填补了中文领域高质量数据集的空白。

极道 ·

CLUE发布了100G中文语料库CLUECorpus2020，可用于自监督学习和语言模型预训练。作者还发布了新的中文词汇表和经过预训练的模型，并将其代码和数据集发布在Github上。实验结果表明，训练在此语料库上的模型在中文上表现出色。

BriefGPT - AI 论文速递 ·