本研究构建了新数据集和评估指标,探讨大型语言模型(LLMs)在医学问答中的表现,指出现有基准测试无法充分反映临床复杂性。研究强调增强跨语言能力和建立公平的信息生态系统的必要性,并提出新的提取任务和评估方法,以帮助医学专家识别循证解释。
完成下面两步后,将自动完成登录并继续当前操作。