10 大中文医学数据集汇总:涵盖神农中医药、中医药古籍、医学推理、医学问答……

💡 原文中文,约2400字,阅读约需6分钟。
📝

内容提要

医疗人工智能的发展依赖于高质量的数据集,涵盖疾病诊断、药物研发和个性化医疗等领域。本文整理了10个医学数据集,包括中医药、医学问答和推理,旨在帮助研究人员了解数据资源的特点与应用。

🎯

关键要点

  • 医疗人工智能的发展依赖于高质量的数据集,涵盖疾病诊断、药物研发和个性化医疗等领域。
  • 医学数据集形式多样,推动机器视觉和大模型在医学领域的应用。
  • 本文整理了10个医学数据集,帮助研究人员了解数据资源的特点与应用。
  • 首个中文医疗专科问答推理数据集由蚂蚁集团与上海交通大学合作创建,包含专业医生编写的病例数据。
  • 中文医疗问答数据集包含792,099条问答对,涵盖多个医疗科室。
  • 医学对话数据集设计用于医学聊天机器人,包含256,916条患者与医生的对话。
  • 神农中医药数据集专为中医药领域设计,包含超11万个指令数据,提升模型回答能力。
  • 中医药古籍数据集包含约700项古籍文本,涵盖医学理论和临床案例。
  • 中医诊断数据集包含约1GB的高质量中医临床案例和医学百科内容。
  • 中医对话数据集结合多种类型的数据,提升模型在医疗领域的对话能力。
  • 医学推理数据集专为微调医学大语言模型HuatuoGPT-o1而设计。
  • 多语言医学能力测试基准数据集评估医学领域多语言模型的发展,涵盖6种语言和21种医学子领域。
  • MMedC大规模多语言医疗语料库包含约255亿个tokens,涵盖6种主要语言。
  • HyperAI超神经致力于成为国内数据科学领域的基础设施,提供丰富的公共资源。
➡️

继续阅读