小红花·文摘

本研究提出FineMedLM-o1模型，旨在提升医学大语言模型在复杂临床场景中的推理能力。通过结合高质量合成医学数据和测试时训练（TTT），模型在医学基准测试中平均性能提升23%，TTT进一步提高14%，显示出其有效性。

BriefGPT - AI 论文速递 ·

为了解决医学大语言模型评估工作耗时且需要大量人力的问题，研究人员引入了MedBench，一个综合性的基准测试，包括来自医学各领域的40,041个问题。通过评估医学语言学习模型的知识掌握和推理能力，MedBench建立了一个可靠的标准，揭示了医学大语言模型的能力和限制，以帮助医学研究社区。

BriefGPT - AI 论文速递 ·