小红花·文摘

本研究介绍了MedExQA，一个用于评估医学知识理解能力的新型基准。通过构建涵盖五个不同医学专业的数据集，并为每个问题提供多个解释，填补了医学问答基准的空白。研究结果表明，使用多个解释进行生成评估更符合人类评估结果，提供了一个更稳健的自动理解评估机制的机会。同时，研究还提出了一种新的医学模型MedPhi-2，展示了它在资源受限的医学领域的有效性。