华为云官方博客 ·

从HumanEval到CoderEval: 你的代码生成模型真的work吗？

💡 原文中文，约5900字，阅读约需14分钟。

📝

内容提要

本文介绍了一个名为CoderEval的代码生成大模型评估基准，对三个代码生成模型在该基准上的表现进行了评估和比较。实验结果表明，这三个模型在生成自包含函数方面的效果明显优于其他任务，但实际项目中的函数大部分依赖不同程度的上下文信息，因此提高模型对上下文信息的考虑和利用能力对于代码生成技术的实际可用性非常重要。该工作由北京大学和华为云Paas技术创新LAB合作完成，论文已被软件工程顶会ICSE 2024录用。

🎯

关键要点

CoderEval是一个新的代码生成大模型评估基准，评估了三个模型的表现。
研究人员从真实开源项目中选取代码生成任务，构建了CoderEval。
实验结果显示，三个模型在生成自包含函数方面表现优于其他任务。
提高模型对上下文信息的考虑和利用能力对代码生成技术的实际可用性至关重要。
CoderEval解决了HumanEval的一些问题，提供了更全面的评估。
CoderEval的组成部分包括生成任务、测试代码和测试环境。
CoderEval支持函数/方法块级生成，并提供上下文感知能力评估。
测试结果显示，ChatGPT在CoderEval上的表现优于其他两个模型。
CoderEval的目标是成为一个客观、公正、全面的Benchmark，持续推动代码智能社区的研究与落地。

🏷️

继续阅读

麻省理工学院研究人员教AI模型解读图表
MIT和IBM研究人员开发了ChartNet数据集，包含超过一百万种多样化图表，旨在提升视觉语言模型对图表的理解能力。该数据集通过合成数据生成，帮助小型企...
谷歌希望向Google Play应用开发者付费购买开发者的应用源代码用于训练模型
谷歌希望向 Google Play 开发者付费，以获取应用程序代码库的访问权，旨在利用这些优质代码训练其人工智能模型 Gemini。开发者将保留100%的...
微软新模型MAI-Code-1-Flash：比Claude Haiku强还省60%Token
微软新发布的MAI-Code-1-Flash编程模型专注于代码生成，声称能比Claude Haiku节省60%的Token。该模型适合简单任务，执行效率高...
微软押注企业AI竞赛将依赖数据上下文而非模型能力
微软在Build 2026开发者大会上推出了Microsoft Fabric，旨在解决企业AI中的数据上下文问题。新平台包括HorizonDB数据库、GP...
特朗普签署行政命令，要求在发布前审查人工智能模型
特朗普签署行政命令，要求AI公司在发布前自愿向政府分享其模型，以促进安全创新并增强网络安全。该命令强调AI行业的成功与创新不应受到过度监管，同时承认新技术...
在线教程丨英伟达开源LocateAnything，3B模型可实现图像+视频的目标指向/开放词汇目标检测/指代表达定位/OCR文本定位等功能
NVIDIA 最近推出了视觉语言定位模型LocateAnything-3B，拥有30亿参数，支持多种视觉定位任务。其核心创新为并行框解码（PBD），显著提...

从HumanEval到CoderEval: 你的代码生成模型真的work吗？

内容提要

关键要点

标签

继续阅读