小红花·文摘

本研究提出了MedAgentsBench基准，旨在评估复杂医学推理的不足，尤其是在多步骤临床推理和诊断形成方面。实验结果表明，最新的思维模型在这些任务中表现优异，而高级搜索代理方法具有较高的性价比，推动了医学问答领域的发展。