本研究介绍了MedExQA,一个用于评估医学知识理解能力的新型基准。通过构建涵盖五个不同医学专业的数据集,并为每个问题提供多个解释,填补了医学问答基准的空白。研究结果表明,使用多个解释进行生成评估更符合人类评估结果,提供了一个更稳健的自动理解评估机制的机会。同时,研究还提出了一种新的医学模型MedPhi-2,展示了它在资源受限的医学领域的有效性。
完成下面两步后,将自动完成登录并继续当前操作。