开源Llama-34B经微调在HumanEval上击败GPT-4

💡 原文中文,约1200字,阅读约需3分钟。
📝

内容提要

CodeLlama模型在HumanEval上展示了令人印象深刻的性能,CodeLlama-34B和CodeLlama-34B-Python分别达到了48.8%和53.7%的pass@1成绩。经过内部Phind数据集微调后,CodeLlama-34B和CodeLlama-34B-Python在HumanEval上分别实现了67.6%和69.5%的pass@1。使用OpenAI的净化方法应用于数据集以确保结果的有效性。使用约8万个高质量编程问题和解决方案的专有数据集进行微调。使用DeepSpeed ZeRO 3和Flash Attention 2,在序列长度为4096个token的情况下,用三个小时训练了这些模型。Phind-CodeLlama-34B-v1和Phind-CodeLlama-34B-Python-v1在HumanEval上分别达到了67.6%和69.5%的pass@1。

🎯

关键要点

  • CodeLlama模型在HumanEval上表现出色,CodeLlama-34B和CodeLlama-34B-Python分别取得48.8%和53.7%的pass@1成绩。
  • 经过内部Phind数据集微调后,CodeLlama-34B和CodeLlama-34B-Python在HumanEval上分别实现67.6%和69.5%的pass@1。
  • 使用OpenAI的净化方法确保结果有效性,未发现受污染的示例。
  • 微调使用约8万个高质量编程问题和解决方案的专有数据集,采用指令-答案对的结构。
  • 模型训练使用DeepSpeed ZeRO 3和Flash Attention 2,使用32个A100-80GB GPU,序列长度为4096个token,训练时间为三小时。
  • Phind-CodeLlama-34B-v1和Phind-CodeLlama-34B-Python-v1在HumanEval上分别达到67.6%和69.5%的pass@1。
  • 对HumanEval的质疑包括数据集规模小,问题未能真实反映软件工程问题。
  • 内部GPT-4在几周前已达到约85%的pass@1率,但存在RLHF污染模型的疑虑。
➡️

继续阅读