每周编辑精选|FewJoint 基准数据集上线、科技部监督司发布 AI 新规

💡 原文中文,约2900字,阅读约需7分钟。
📝

内容提要

哈工大推出了FewJoint基准数据集,供NLP小样本评测使用。hyper.ai还有其他中文大模型训练的NLP数据集可下载。

🎯

关键要点

  • 哈工大推出FewJoint基准数据集,供NLP小样本评测使用。
  • FewJoint数据集包含59个真实领域,是对话数据集之一。
  • hyper.ai提供多个中文大模型训练的NLP数据集可下载。
  • 100 PoisonMpts是首个大语言模型治理开源中文数据集。
  • CLUE是用于中文语法理解任务的评测基准数据集。
  • 维基百科数据集由Wikipedia dumps构建,包含完整文章内容。
  • 中文互联网语料库(CCI)经过严格的数据清洗和去重。
  • PKU简体中文分词数据集用于中文分词模型的训练与评测。
  • Chinese-Poetry数据库包含大量古典诗歌文集。
  • PD&CFT是第一个中文阅读理解数据集,包含人民日报和儿童童话的文本。
  • hyper.ai还更新了多篇AI相关论文案例和热门百科词条。
  • HyperAI超神经致力于成为国内数据科学领域的基础设施,提供丰富的公共资源。
➡️

继续阅读