💡 原文英文,约1000词,阅读约需4分钟。
📝

内容提要

ETH苏黎世和斯坦福大学的研究人员发布了MIRIAD,一个包含580万医学问答对的开源数据集,旨在解决医学领域数据不足的问题。该数据集基于900,000篇同行评审文献,经过多阶段过滤以确保数据质量,能显著减少医学AI中的幻觉现象,提升其可靠性和应用。研究者计划每年更新MIRIAD,以促进医学AI系统的发展。

🎯

关键要点

  • ETH苏黎世和斯坦福大学发布了MIRIAD,一个包含580万医学问答对的开源数据集。
  • MIRIAD旨在解决医学领域数据不足的问题,减少医学AI中的幻觉现象。
  • 该数据集基于900,000篇同行评审文献,经过多阶段过滤以确保数据质量。
  • MIRIAD的目标是创建一个结构化、信息密集、全面且可信赖的大规模数据集。
  • 问答对通过GPT-3.5-Turbo生成,并经过自动过滤、分类器过滤和专家标注三阶段处理。
  • Qdrant被选为MIRIAD的检索工具,因其使用简单、速度快且开源。
  • MIRIAD的结果显示,结构化高质量数据集显著提高了医学领域LLMs的可靠性。
  • 最终数据集包含5821948个问答对,覆盖56个医学主题,并在HuggingFace上开源。
  • 研究者计划每年更新MIRIAD,以保持其与新医学知识的同步。
  • MIRIAD旨在激励研究人员、临床医生和工程师构建更可靠的医学AI系统。
➡️

继续阅读