本研究提出了ACE-$M^3$,一种开源的自动能力评估工具,旨在有效评估医疗领域的多模态大型语言模型(MLLMs)。该工具通过分支合并架构和奖励标记优化策略,提高了评估效率,实验结果显示其在评估医疗模型能力方面表现显著。
完成下面两步后,将自动完成登录并继续当前操作。