💡
原文英文,约1000词,阅读约需4分钟。
📝
内容提要
ETH苏黎世和斯坦福大学的研究人员发布了MIRIAD,一个包含580万医学问答对的开源数据集,旨在解决医学领域数据不足的问题。该数据集基于900,000篇同行评审文献,经过多阶段过滤以确保数据质量,能显著减少医学AI中的幻觉现象,提升其可靠性和应用。研究者计划每年更新MIRIAD,以促进医学AI系统的发展。
🎯
关键要点
- ETH苏黎世和斯坦福大学发布了MIRIAD,一个包含580万医学问答对的开源数据集。
- MIRIAD旨在解决医学领域数据不足的问题,减少医学AI中的幻觉现象。
- 该数据集基于900,000篇同行评审文献,经过多阶段过滤以确保数据质量。
- MIRIAD的目标是创建一个结构化、信息密集、全面且可信赖的大规模数据集。
- 问答对通过GPT-3.5-Turbo生成,并经过自动过滤、分类器过滤和专家标注三阶段处理。
- Qdrant被选为MIRIAD的检索工具,因其使用简单、速度快且开源。
- MIRIAD的结果显示,结构化高质量数据集显著提高了医学领域LLMs的可靠性。
- 最终数据集包含5821948个问答对,覆盖56个医学主题,并在HuggingFace上开源。
- 研究者计划每年更新MIRIAD,以保持其与新医学知识的同步。
- MIRIAD旨在激励研究人员、临床医生和工程师构建更可靠的医学AI系统。
➡️