小红花·文摘

本研究评估了九个大语言模型在中英文医学问答中的表现，发现模型对多选题的选项顺序敏感且一致性较差。分析小型开源模型时，发现大多数模型理解任务的能力不足。研究提出了新的评估方法，强调改进医学问答模型性能的必要性，并呼吁开发新的基准和度量指标。