小红花·文摘

本研究提出了多语言基准BRIDGE，评估大型语言模型（LLMs）在临床实践中的表现，涵盖87个任务。结果显示，开源LLMs的性能与专有模型相当，而基于旧架构的医学微调LLMs表现不佳，为新模型在理解临床文本的开发与评估提供了重要资源。

BriefGPT - AI 论文速递 ·

该论文介绍了MedExpQA，这是一个用于评估大型语言模型在医学问答中的表现的多语言基准，指出其在非英语语言中的性能仍需改进，并强调整合医学知识的挑战，呼吁开发其他语言的基准。

BriefGPT - AI 论文速递 ·