每周编辑精选|FewJoint 基准数据集上线、科技部监督司发布 AI 新规

💡 原文中文,约2900字,阅读约需7分钟。
📝

内容提要

哈工大推出了FewJoint基准数据集,供NLP小样本评测使用。hyper.ai还有其他中文大模型训练的NLP数据集可下载。

🎯

关键要点

  • 哈工大推出FewJoint基准数据集,供NLP小样本评测使用。

  • FewJoint数据集包含59个真实领域,是对话数据集之一。

  • hyper.ai提供多个中文大模型训练的NLP数据集可下载。

  • 100 PoisonMpts是首个大语言模型治理开源中文数据集。

  • CLUE是用于中文语法理解任务的评测基准数据集。

  • 维基百科数据集由Wikipedia dumps构建,包含完整文章内容。

  • 中文互联网语料库(CCI)经过严格的数据清洗和去重。

  • PKU简体中文分词数据集用于中文分词模型的训练与评测。

  • Chinese-Poetry数据库包含大量古典诗歌文集。

  • PD&CFT是第一个中文阅读理解数据集,包含人民日报和儿童童话的文本。

  • hyper.ai还更新了多篇AI相关论文案例和热门百科词条。

  • HyperAI超神经致力于成为国内数据科学领域的基础设施,提供丰富的公共资源。

🏷️

标签

➡️

继续阅读