每周编辑精选|FewJoint 基准数据集上线、科技部监督司发布 AI 新规
原文中文,约2900字,阅读约需7分钟。
📝
内容提要
哈工大推出了FewJoint基准数据集,供NLP小样本评测使用。hyper.ai还有其他中文大模型训练的NLP数据集可下载。
🎯
关键要点
-
哈工大推出FewJoint基准数据集,供NLP小样本评测使用。
-
FewJoint数据集包含59个真实领域,是对话数据集之一。
-
hyper.ai提供多个中文大模型训练的NLP数据集可下载。
-
100 PoisonMpts是首个大语言模型治理开源中文数据集。
-
CLUE是用于中文语法理解任务的评测基准数据集。
-
维基百科数据集由Wikipedia dumps构建,包含完整文章内容。
-
中文互联网语料库(CCI)经过严格的数据清洗和去重。
-
PKU简体中文分词数据集用于中文分词模型的训练与评测。
-
Chinese-Poetry数据库包含大量古典诗歌文集。
-
PD&CFT是第一个中文阅读理解数据集,包含人民日报和儿童童话的文本。
-
hyper.ai还更新了多篇AI相关论文案例和热门百科词条。
-
HyperAI超神经致力于成为国内数据科学领域的基础设施,提供丰富的公共资源。
🏷️