小红花·文摘

CodeLlama模型在HumanEval上展示了令人印象深刻的性能，CodeLlama-34B和CodeLlama-34B-Python分别达到了48.8%和53.7%的pass@1成绩。经过内部Phind数据集微调后，CodeLlama-34B和CodeLlama-34B-Python在HumanEval上分别实现了67.6%和69.5%的pass@1。使用OpenAI的净化方法应用于数据集以确保结果的有效性。使用约8万个高质量编程问题和解决方案的专有数据集进行微调。使用DeepSpeed ZeRO 3和Flash Attention 2，在序列长度为4096个token的情况下，用三个小时训练了这些模型。Phind-CodeLlama-34B-v1和Phind-CodeLlama-34B-Python-v1在HumanEval上分别达到了67.6%和69.5%的pass@1。