开源Llama-34B经微调在HumanEval上击败GPT-4
原文中文,约1200字,阅读约需3分钟。发表于: 。昨天发布的 CodeLlama 模型在 HumanEval 上展示了令人印象深刻的性能。 CodeLlama-34B 在 HumanEval 上取得了 48.8% pass@1 的成绩 CodeLlama-34B-Python 在 HumanEval 上达到 53.7% pass@1 在内部 Phind 数据集上对 CodeLlama-34B 和 CodeLlama-34B-Python...
CodeLlama模型在HumanEval上展示了令人印象深刻的性能,CodeLlama-34B和CodeLlama-34B-Python分别达到了48.8%和53.7%的pass@1成绩。经过内部Phind数据集微调后,CodeLlama-34B和CodeLlama-34B-Python在HumanEval上分别实现了67.6%和69.5%的pass@1。使用OpenAI的净化方法应用于数据集以确保结果的有效性。使用约8万个高质量编程问题和解决方案的专有数据集进行微调。使用DeepSpeed ZeRO 3和Flash Attention 2,在序列长度为4096个token的情况下,用三个小时训练了这些模型。Phind-CodeLlama-34B-v1和Phind-CodeLlama-34B-Python-v1在HumanEval上分别达到了67.6%和69.5%的pass@1。