BRIDGE: Benchmarking Large Language Models on Real-world Clinical Practice Texts

💡 原文英文,约100词,阅读约需1分钟。
📝

内容提要

本研究提出了多语言基准BRIDGE,评估大型语言模型(LLMs)在临床实践中的表现,涵盖87个任务。结果显示,开源LLMs的性能与专有模型相当,而基于旧架构的医学微调LLMs表现不佳,为新模型在理解临床文本的开发与评估提供了重要资源。

🎯

关键要点

  • 本研究提出了多语言基准BRIDGE,用于评估大型语言模型(LLMs)在临床实践中的表现。
  • BRIDGE基准涵盖了来自现实世界临床数据的87个任务。
  • 研究结果显示,开源LLMs的性能与专有模型相当。
  • 基于旧架构的医学微调LLMs表现不佳。
  • 该研究为新模型在理解临床文本的开发与评估提供了重要资源。
➡️

继续阅读