小红花·文摘

本研究构建了新数据集和评估指标，探讨大型语言模型（LLMs）在医学问答中的表现，指出现有基准测试无法充分反映临床复杂性。研究强调增强跨语言能力和建立公平的信息生态系统的必要性，并提出新的提取任务和评估方法，以帮助医学专家识别循证解释。