DolphCoder: 用多目标指令调整为特征的大型语言模型进行回声定位编码
原文中文,约500字,阅读约需2分钟。发表于: 。通过引入一种具有自我评估功能的多样指令模型 (DolphCoder) 来增强预训练的 Code LLM 的代码生成性能,实现了卓越的 HumanEval 和 MBPP 基准性能,为未来的代码指令调优工作提供了新的见解。
研究评估了10个开源指导式LLMs在代码理解和生成任务上的表现,结果显示指导式LLMs在零样本和少样本设置下表现有竞争力,添加演示示例可以提高性能,基于BM25的选样策略在生成问题上优于随机选样或固定选样,微调可以进一步提高模型性能,指导式LLMs在微调后的性能优于小型SOTA模型和未进行指导微调的相似规模LLMs。研究提出了模型和使用建议、性能和成本的权衡以及未来方向的实用影响。