每周编辑精选|FewJoint 基准数据集上线、科技部监督司发布 AI 新规
💡
原文中文,约2900字,阅读约需7分钟。
📝
内容提要
哈工大推出了FewJoint基准数据集,供NLP小样本评测使用。hyper.ai还有其他中文大模型训练的NLP数据集可下载。
🎯
关键要点
- 哈工大推出FewJoint基准数据集,供NLP小样本评测使用。
- FewJoint数据集包含59个真实领域,是对话数据集之一。
- hyper.ai提供多个中文大模型训练的NLP数据集可下载。
- 100 PoisonMpts是首个大语言模型治理开源中文数据集。
- CLUE是用于中文语法理解任务的评测基准数据集。
- 维基百科数据集由Wikipedia dumps构建,包含完整文章内容。
- 中文互联网语料库(CCI)经过严格的数据清洗和去重。
- PKU简体中文分词数据集用于中文分词模型的训练与评测。
- Chinese-Poetry数据库包含大量古典诗歌文集。
- PD&CFT是第一个中文阅读理解数据集,包含人民日报和儿童童话的文本。
- hyper.ai还更新了多篇AI相关论文案例和热门百科词条。
- HyperAI超神经致力于成为国内数据科学领域的基础设施,提供丰富的公共资源。
➡️