干货! 一键领取超火的 20 个 LLM 中文数据集
💡
原文中文,约4800字,阅读约需12分钟。
📝
内容提要
本文整理了适用于大模型训练调优的热门中文公开数据集,包括数学问题、文本生成、机器阅读理解、对话数据集等。
🎯
关键要点
- 大语言模型的训练和调优需要优质的数据支撑。
- 本文整理了适用于大模型训练调优的热门中文公开数据集。
- Ape210K 数据集包含 210k 个中国小学水平的数学问题。
- Belle 数据集包含约 350 万条由 BELLE 项目生成的中文指令数据。
- Chinese Squad 是中文机器阅读理解数据集,包含 V1.1 和 V2.0。
- CMRC 2018 数据集用于中文机器阅读理解评测,已被 EMNLP 2019 录用。
- CrossWOZ 是首个面向任务的大型中文跨域对话数据集。
- DRCD Delta 数据集旨在成为标准的中文机器阅读理解数据集。
- Douban Conversation Corpus 包含 1000 个对话上下文及其响应候选。
- DuReader 是关注于机器阅读理解的基准数据集。
- E-KAR 是可解释知识密集型类比推理的基准数据集。
- FCGEC 数据集用于中文语法检错和纠错模型的训练与评估。
- KdConv 是中文多领域知识驱动的对话数据集。
- Math23K 数据集包含 23,162 个中文数学单词问题。
- MedDialog 是大规模的医疗对话数据集,包含 110 万条对话。
- ODSQA 数据集用于中文问答的口语数据集,包含 3000 多个问题。
- RedGPT 数据集用于提升 ChatGPT 的事实正确性。
- The United Nations Parallel Corpus 是一个多语言问答数据集。
- VQA 数据集用于视觉问答任务,结合图像和自然语言问题。
- WebQA v1.0 是百度开源的中文问答数据集,数据来自百度知道。
- XiaChuFang Recipe Corpus 包含 1,520,327 种中国食谱。
- XQuAD 是用于评估跨语言问答性能的基准数据集。
- OpenBayes 平台支持数据集一键绑定,简化模型训练过程。
➡️