北京人工智能研究院发布了中文语料库互联网数据集,包含1000个重要中文网站的内容,总共104GB。该数据集填补了中文领域高质量数据集的空白。
CLUE发布了100G中文语料库CLUECorpus2020,可用于自监督学习和语言模型预训练。作者还发布了新的中文词汇表和经过预训练的模型,并将其代码和数据集发布在Github上。实验结果表明,训练在此语料库上的模型在中文上表现出色。
完成下面两步后,将自动完成登录并继续当前操作。