小红花·文摘

本研究提出了多语言基准BRIDGE，评估大型语言模型（LLMs）在临床实践中的表现，涵盖87个任务。结果显示，开源LLMs的性能与专有模型相当，而基于旧架构的医学微调LLMs表现不佳，为新模型在理解临床文本的开发与评估提供了重要资源。