HyperAI超神经 ·

干货！一键领取超火的 20 个 LLM 中文数据集

💡 原文中文，约4800字，阅读约需12分钟。

📝

内容提要

本文整理了适用于大模型训练调优的热门中文公开数据集，包括数学问题、文本生成、机器阅读理解、对话数据集等。

🎯

关键要点

大语言模型的训练和调优需要优质的数据支撑。
本文整理了适用于大模型训练调优的热门中文公开数据集。
Ape210K 数据集包含 210k 个中国小学水平的数学问题。
Belle 数据集包含约 350 万条由 BELLE 项目生成的中文指令数据。
Chinese Squad 是中文机器阅读理解数据集，包含 V1.1 和 V2.0。
CMRC 2018 数据集用于中文机器阅读理解评测，已被 EMNLP 2019 录用。
CrossWOZ 是首个面向任务的大型中文跨域对话数据集。
DRCD Delta 数据集旨在成为标准的中文机器阅读理解数据集。
Douban Conversation Corpus 包含 1000 个对话上下文及其响应候选。
DuReader 是关注于机器阅读理解的基准数据集。
E-KAR 是可解释知识密集型类比推理的基准数据集。
FCGEC 数据集用于中文语法检错和纠错模型的训练与评估。
KdConv 是中文多领域知识驱动的对话数据集。
Math23K 数据集包含 23,162 个中文数学单词问题。
MedDialog 是大规模的医疗对话数据集，包含 110 万条对话。
ODSQA 数据集用于中文问答的口语数据集，包含 3000 多个问题。
RedGPT 数据集用于提升 ChatGPT 的事实正确性。
The United Nations Parallel Corpus 是一个多语言问答数据集。
VQA 数据集用于视觉问答任务，结合图像和自然语言问题。
WebQA v1.0 是百度开源的中文问答数据集，数据来自百度知道。
XiaChuFang Recipe Corpus 包含 1,520,327 种中国食谱。
XQuAD 是用于评估跨语言问答性能的基准数据集。
OpenBayes 平台支持数据集一键绑定，简化模型训练过程。

🏷️

干货！一键领取超火的 20 个 LLM 中文数据集

内容提要

关键要点

标签

继续阅读