本研究提出了多语言基准BRIDGE,评估大型语言模型(LLMs)在临床实践中的表现,涵盖87个任务。结果显示,开源LLMs的性能与专有模型相当,而基于旧架构的医学微调LLMs表现不佳,为新模型在理解临床文本的开发与评估提供了重要资源。
该论文介绍了MedExpQA,这是一个用于评估大型语言模型在医学问答中的表现的多语言基准,指出其在非英语语言中的性能仍需改进,并强调整合医学知识的挑战,呼吁开发其他语言的基准。
完成下面两步后,将自动完成登录并继续当前操作。