OctoPack：指令优化大型语言模型代码

通过对指令进行细调，利用代码进行指令调整，以提升大型语言模型（LLMs）在自然语言任务中的性能表现，并在 Git 提交中利用人类指令的自然结构进行指令调整，实现了在 16B 参数 StarCoder 模型上超过其他自然和合成代码指令（xP3x，自我指导，OASST）的最新性能，即在 HumanEval Python 基准测试中达到 46.2％的一次通过率。

本研究评估了10个开源指导式LLMs在代码理解和生成任务上的表现。结果显示，在零样本设置下，指导式LLMs表现非常有竞争力，有时比特定任务微调的小型SOTA模型更好。在少样本设置下，添加演示示例可以帮助LLMs表现更好，但有时会导致不稳定或更差的表现。使用BM25的选样策略在生成问题上优于随机选样或固定选样。微调可以进一步提高模型性能。指导式LLMs在微调后的性能优于小型SOTA模型和未进行指导微调的相似规模LLMs。研究提出了模型和使用建议、性能和成本的权衡以及未来方向的实用影响。

大型语言模型小型SOTA模型微调指导式LLMs 演示示例零样本设置