采用人类启发学习策略对大型语言模型进行微调以应对医学问答

本研究解决了大型语言模型（LLMs）微调过程中的数据效率问题，提出了基于人类学习经验的课程学习策略。研究发现，尽管使用课程学习微调LLMs能显著提高性能，其效果因模型和数据集组合而异，且通过LLM定义的问题难度，课程学习效果优于人类定义的难度，这为最佳课程设计提供了新思路。

评估了四个最先进的面向指令的大型语言模型在临床和生物医学自然语言处理任务中的表现。结果显示，这些模型在零样本和少样本场景中接近最先进模型的性能，尤其在问答任务中表现出色。然而，分类和关系抽取任务的性能低于专门训练用于医学领域的模型。没有一个模型在所有任务中都胜过其他模型，某些模型在特定任务中更适合。