本研究提出了MedAgentsBench基准,旨在评估复杂医学推理的不足,尤其是在多步骤临床推理和诊断形成方面。实验结果表明,最新的思维模型在这些任务中表现优异,而高级搜索代理方法具有较高的性价比,推动了医学问答领域的发展。
完成下面两步后,将自动完成登录并继续当前操作。