本研究提出了Med-RLVR,通过医学多项选择题数据提升强化学习在医学领域的应用。结果表明,Med-RLVR在医学问题回答上与传统方法相当,但在跨分布泛化能力上提高了8个百分点,显示出其潜力。
完成下面两步后,将自动完成登录并继续当前操作。