本研究提出FineMedLM-o1模型,旨在解决医学大语言模型在复杂临床场景中的推理不足。通过高质量合成数据和长形式推理数据进行微调,并引入测试时训练(TTT),显著提升推理准确性,平均性能提高23%,TTT额外提升14%。
为了解决医学大语言模型评估工作耗时且需要大量人力的问题,研究人员引入了MedBench,一个综合性的基准测试,包括来自医学各领域的40,041个问题。通过评估医学语言学习模型的知识掌握和推理能力,MedBench建立了一个可靠的标准,揭示了医学大语言模型的能力和限制,以帮助医学研究社区。
完成下面两步后,将自动完成登录并继续当前操作。