极道 ·

开源Llama-34B经微调在HumanEval上击败GPT-4

💡 原文中文，约1200字，阅读约需3分钟。

📝

内容提要

CodeLlama模型在HumanEval上展示了令人印象深刻的性能，CodeLlama-34B和CodeLlama-34B-Python分别达到了48.8%和53.7%的pass@1成绩。经过内部Phind数据集微调后，CodeLlama-34B和CodeLlama-34B-Python在HumanEval上分别实现了67.6%和69.5%的pass@1。使用OpenAI的净化方法应用于数据集以确保结果的有效性。使用约8万个高质量编程问题和解决方案的专有数据集进行微调。使用DeepSpeed ZeRO 3和Flash Attention 2，在序列长度为4096个token的情况下，用三个小时训练了这些模型。Phind-CodeLlama-34B-v1和Phind-CodeLlama-34B-Python-v1在HumanEval上分别达到了67.6%和69.5%的pass@1。

🎯

关键要点

CodeLlama模型在HumanEval上表现出色，CodeLlama-34B和CodeLlama-34B-Python分别取得48.8%和53.7%的pass@1成绩。
经过内部Phind数据集微调后，CodeLlama-34B和CodeLlama-34B-Python在HumanEval上分别实现67.6%和69.5%的pass@1。
使用OpenAI的净化方法确保结果有效性，未发现受污染的示例。
微调使用约8万个高质量编程问题和解决方案的专有数据集，采用指令-答案对的结构。
模型训练使用DeepSpeed ZeRO 3和Flash Attention 2，使用32个A100-80GB GPU，序列长度为4096个token，训练时间为三小时。
Phind-CodeLlama-34B-v1和Phind-CodeLlama-34B-Python-v1在HumanEval上分别达到67.6%和69.5%的pass@1。
对HumanEval的质疑包括数据集规模小，问题未能真实反映软件工程问题。
内部GPT-4在几周前已达到约85%的pass@1率，但存在RLHF污染模型的疑虑。

🏷️

开源Llama-34B经微调在HumanEval上击败GPT-4

内容提要

关键要点

标签

继续阅读