AlpaCare:针对医疗应用进行指导调优的大型语言模型
原文中文,约400字,阅读约需1分钟。发表于: 。通过 fine-tune LLaMA 系列模型使用 52k 多样化的、机器生成的医疗指令数据 MedInstruct-52k,得到模型 AlpaCare,研究对比了 AlpaCare 与以往指令调整模型在医学和一般领域中的医疗能力和通用性,结果显示 AlpaCare 在医学和一般领域中具有较强的医学能力和通用性。
本文介绍了一个包含983个电子病历数据的自然语言指令的基准数据集MedAlign,用于评估医疗保健领域的大型语言模型(LLMs)的准确性和质量。通过评估6个通用领域的LLMs,发现高错误率和GPT-4在文本长度从32k到2k时准确率下降了8.3%。同时,还报告了医生排名和自动化自然语言生成度量之间的相关性,以一种无需人工审查的方式对LLMs进行排名。