开源 LLM 指令调整的自动指令优化
原文约500字/词,阅读约需2分钟。发表于: 。通过自动修订样本来增强指令数据集的质量,CoachLM 训练自人工专家修订过的样本,并将数据集中高质量样本的比例从 17.7%提高到 78.9%。CoachLM 通过平均 29.9%的提升改善了指令调优的语言学习模型的指令跟随能力,并在华为的 LLM 数据管理系统中实现了高达 20%的效率提升。
研究评估了10个开源指导式LLMs在代码理解和生成任务上的表现。结果显示,指导式LLMs在零样本和少样本设置下表现有竞争力,但添加演示示例可能导致不稳定或更差的表现。基于BM25的选样策略在生成问题上优于随机选样。微调可以进一步提高模型性能,指导式LLMs在微调后的性能优于其他模型。研究提出了模型和使用建议、性能和成本的权衡以及未来方向的实用影响。