LLM 指令微调的提示权重实验

通过分析 PLW 对基于指令任务进行微调的 7B 大小的 LLaMA 模型的性能的小型研究，我们重新创建了斯坦福的 Alpaca 实验，使用多个指令数据集。我们发现，基于我们的短完成数据集进行微调的模型与 PLW 存在负二次关系，而基于长完成数据集进行微调的模型则不受 PLW 影响。

研究评估了多种大语言模型在心理健康任务中的性能，发现LLMs在零样本和少样本提示设计上有限但有希望的表现。指令微调可以显著提升LLMs在所有任务上的性能。最佳微调模型Mental-Alpaca在平衡精度上比GPT-3.5高出16.7％，与最先进的任务特定模型相媲美。提供了行动指南，帮助研究人员、工程师和实践者在心理健康领域中使用LLMs。

LLMs Mental-Alpaca 大语言模型心理健康任务指令微调