本研究提出了“诊断竞技场”基准测试,以评估复杂诊断推理能力。通过分析1,113个病例,发现现有推理模型在临床诊断中的准确率仅为45.82%,显示其推广能力不足。
完成下面两步后,将自动完成登录并继续当前操作。