为临床任务对齐大型语言模型
原文中文,约400字,阅读约需1分钟。发表于: 。大型语言模型在临床应用中的关键性挑战是对其进行有效的对齐,以实现准确生成具备事实内容和非平凡推理能力的响应。本研究提出了一种名为 “扩展 - 猜测 - 精化” 的医学问题回答的对齐策略,该策略通过采用指令调整和少样本以及连续思考等方法显著提高了大型语言模型的性能。初步分析表明,该方法在从 USMLE 数据集中选取的问题子集上达到了 70.63% 的优异表现。
介绍了MedAlign数据集,用于评估医疗保健领域的语言模型。发现通用领域的LLMs存在高错误率,GPT-4在文本长度减少时准确率下降。报告了医生排名与自动化自然语言生成度量之间的相关性。提供了MedAlign供研究人员使用。