MeNTi:通过嵌套工具调用连接医学计算器和大语言模型代理

💡 原文中文,约500字,阅读约需2分钟。
📝

内容提要

当前医学中的大型语言模型评估主要关注领域知识和描述性推理,忽视了基于规则的临床计算。为此,提出了MedCalc-Bench数据集,用于评估LLMs在医学计算能力上的表现。数据集包含55个医学计算任务的1000多个实例,提供患者记录、问题、答案和解题步骤。研究发现,LLMs在临床计算中存在不足,如实体提取和计算错误。希望此研究能推动LLMs在医学计算任务中的改进。

🎯

关键要点

  • 当前医学中的大型语言模型评估主要关注领域知识和描述性推理,忽视了基于规则的临床计算。
  • 提出了MedCalc-Bench数据集,用于评估LLMs在医学计算能力上的表现。
  • 数据集包含55个医学计算任务的1000多个实例,提供患者记录、问题、答案和解题步骤。
  • 研究发现,LLMs在临床计算中存在不足,如实体提取和计算错误。
  • 希望此研究能推动LLMs在医学计算任务中的改进。
➡️

继续阅读