小红花·文摘

本研究提出了“诊断竞技场”基准测试，以评估复杂诊断推理能力。通过分析1,113个病例，发现现有推理模型在临床诊断中的准确率仅为45.82%，显示其推广能力不足。