基于有效评估模型提取的大规模高质量中文网络文本

💡 原文中文,约300字,阅读约需1分钟。
📝

内容提要

CLUE发布了100G中文语料库CLUECorpus2020,可用于自监督学习和语言模型预训练。作者还发布了新的中文词汇表和经过预训练的模型,并将其代码和数据集发布在Github上。实验结果表明,训练在此语料库上的模型在中文上表现出色。

🎯

关键要点

  • CLUE发布了100G中文语料库CLUECorpus2020,适用于自监督学习。
  • 语料库包含350亿个中文字符,可用于语言生成和语言模型预训练。
  • 实验结果显示,基于该语料库训练的模型在中文上表现出色。
  • 作者发布了新的中文词汇表和经过预训练的模型,包含大型和小型版本。
  • 相关代码和数据集已在Github上公开,供社区使用。
➡️

继续阅读