本研究提出了多语言基准BRIDGE,评估大型语言模型(LLMs)在临床实践中的表现,涵盖87个任务。结果显示,开源LLMs的性能与专有模型相当,而基于旧架构的医学微调LLMs表现不佳,为新模型在理解临床文本的开发与评估提供了重要资源。
完成下面两步后,将自动完成登录并继续当前操作。