干货! 一键领取超火的 20 个 LLM 中文数据集

💡 原文中文,约4800字,阅读约需12分钟。
📝

内容提要

本文整理了适用于大模型训练调优的热门中文公开数据集,包括数学问题、文本生成、机器阅读理解、对话数据集等。

🎯

关键要点

  • 大语言模型的训练和调优需要优质的数据支撑。
  • 本文整理了适用于大模型训练调优的热门中文公开数据集。
  • Ape210K 数据集包含 210k 个中国小学水平的数学问题。
  • Belle 数据集包含约 350 万条由 BELLE 项目生成的中文指令数据。
  • Chinese Squad 是中文机器阅读理解数据集,包含 V1.1 和 V2.0。
  • CMRC 2018 数据集用于中文机器阅读理解评测,已被 EMNLP 2019 录用。
  • CrossWOZ 是首个面向任务的大型中文跨域对话数据集。
  • DRCD Delta 数据集旨在成为标准的中文机器阅读理解数据集。
  • Douban Conversation Corpus 包含 1000 个对话上下文及其响应候选。
  • DuReader 是关注于机器阅读理解的基准数据集。
  • E-KAR 是可解释知识密集型类比推理的基准数据集。
  • FCGEC 数据集用于中文语法检错和纠错模型的训练与评估。
  • KdConv 是中文多领域知识驱动的对话数据集。
  • Math23K 数据集包含 23,162 个中文数学单词问题。
  • MedDialog 是大规模的医疗对话数据集,包含 110 万条对话。
  • ODSQA 数据集用于中文问答的口语数据集,包含 3000 多个问题。
  • RedGPT 数据集用于提升 ChatGPT 的事实正确性。
  • The United Nations Parallel Corpus 是一个多语言问答数据集。
  • VQA 数据集用于视觉问答任务,结合图像和自然语言问题。
  • WebQA v1.0 是百度开源的中文问答数据集,数据来自百度知道。
  • XiaChuFang Recipe Corpus 包含 1,520,327 种中国食谱。
  • XQuAD 是用于评估跨语言问答性能的基准数据集。
  • OpenBayes 平台支持数据集一键绑定,简化模型训练过程。
➡️

继续阅读