小红花·文摘

本研究提出了Med-RLVR，利用医学多项选择题数据通过强化学习探讨医学推理的涌现。结果表明，Med-RLVR在医学问题回答上与传统方法相当，但在跨分布泛化能力上提升了8个百分点，显示出其在知识密集型领域的潜力。