小红花·文摘

本研究提出了ACE-$M^3$，一种开源的自动能力评估工具，旨在有效评估医疗领域的多模态大型语言模型（MLLMs）。该工具通过分支合并架构和奖励标记优化策略，提高了评估效率，实验结果显示其在评估医疗模型能力方面表现显著。