本研究针对大型语言模型在自调用代码生成任务中的推理和问题解决能力的评估,提出了一种新任务。研究开发了三种新的基准测试,包括HumanEval Pro和MBPP Pro,表明大多数模型在传统代码生成任务中表现良好,但在自调用任务上性能下降,揭示了模型的失败模式,这为未来优化模型的代码推理能力提供了新的研究方向。
本研究针对当前测试基准中存在的数据泄漏问题,提出了一个新的基准构建方法,通过组合测试设计生成模板任务以创建不同的具体任务,从而降低数据泄漏的影响。研究的关键发现是,使用模板任务的方法不仅增强了评估的公平性,还为评估语言模型性能提供了更可靠的框架。
本研究提出了HumanEval-V基准,通过108个Python编码任务评估大型多模态模型的视觉理解与推理能力。结果显示现有模型在这些任务中面临显著挑战,指出未来研究的关键方向。
本研究评估了Python代码生成的基准测试HumanEval和MBPP,发现现有测试对某些编程概念存在明显偏向,且易完成问题比例高,可能导致模型性能被高估。为此,提出了新的基准测试MBXP和Multilingual HumanEval,以评估多语言环境下的代码生成能力,并发现当前大型语言模型在真实编程挑战中的表现不足。
本文介绍了一个名为CoderEval的代码生成大模型评估基准,对三个代码生成模型在该基准上的表现进行了评估和比较。实验结果表明,这三个模型在生成自包含函数方面的效果明显优于其他任务,但实际项目中的函数大部分依赖不同程度的上下文信息,因此提高模型对上下文信息的考虑和利用能力对于代码生成技术的实际可用性非常重要。该工作由北京大学和华为云Paas技术创新LAB合作完成,论文已被软件工程顶会ICSE 2024录用。
华为云软件分析Lab介绍了CoderEval评估基准,用于评估代码生成模型。CoderEval基于真实开源项目构建,分级评估模型在不同上下文中的表现。实验结果显示,模型在自包含函数生成上表现较好,但依赖上下文信息的任务表现有待提升。CoderEval论文已发表在ICSE 2024,项目已开源。
CodeLlama模型在HumanEval上展示了令人印象深刻的性能,CodeLlama-34B和CodeLlama-34B-Python分别达到了48.8%和53.7%的pass@1成绩。经过内部Phind数据集微调后,CodeLlama-34B和CodeLlama-34B-Python在HumanEval上分别实现了67.6%和69.5%的pass@1。使用OpenAI的净化方法应用于数据集以确保结果的有效性。使用约8万个高质量编程问题和解决方案的专有数据集进行微调。使用DeepSpeed ZeRO 3和Flash Attention 2,在序列长度为4096个token的情况下,用三个小时训练了这些模型。Phind-CodeLlama-34B-v1和Phind-CodeLlama-34B-Python-v1在HumanEval上分别达到了67.6%和69.5%的pass@1。
完成下面两步后,将自动完成登录并继续当前操作。