小红花·文摘

当前医学中的大型语言模型评估主要关注领域知识和描述性推理，忽视了基于规则的临床计算。为此，提出了MedCalc-Bench数据集，用于评估LLMs在医学计算能力上的表现。数据集包含55个医学计算任务的1000多个实例，提供患者记录、问题、答案和解题步骤。研究发现，LLMs在临床计算中存在不足，如实体提取和计算错误。希望此研究能推动LLMs在医学计算任务中的改进。