本研究评估了九个大语言模型在中英文医学问答中的表现,发现模型对多选题的选项顺序敏感且一致性较差。分析小型开源模型时,发现大多数模型理解任务的能力不足。研究提出了新的评估方法,强调改进医学问答模型性能的必要性,并呼吁开发新的基准和度量指标。
完成下面两步后,将自动完成登录并继续当前操作。