事实还是猜测?评估大语言模型的医学知识与结构化单步判断

📝

内容提要

本研究针对大语言模型在医学知识回忆和应用方面的不足进行探索,尤其是在现有评测中难以隔离其内在医学知识和推理能力的情况下。研究引入了医学知识判断数据集,专注于评估LLMs在医学事实上的一跳知识,其发现表明LLMs在保留医学事实方面存在显著困难,特别是在稀有疾病的语义类别中表现不佳,同时还存在过于自信的错误回答现象。通过检索增强生成的方法,研究显示在提高医学决策的准确性和减少不确定性方面具有有效性。

🏷️

标签

➡️

继续阅读