当前医学中的大型语言模型评估主要关注领域知识和描述性推理,忽视了基于规则的临床计算。为此,提出了MedCalc-Bench数据集,用于评估LLMs在医学计算能力上的表现。数据集包含55个医学计算任务的1000多个实例,提供患者记录、问题、答案和解题步骤。研究发现,LLMs在临床计算中存在不足,如实体提取和计算错误。希望此研究能推动LLMs在医学计算任务中的改进。
完成下面两步后,将自动完成登录并继续当前操作。