华为云官方博客 ·

从HumanEval到CoderEval: 你的代码生成模型真的work吗？

💡 原文中文，约6600字，阅读约需16分钟。

📝

内容提要

华为云软件分析Lab介绍了CoderEval评估基准，用于评估代码生成模型。CoderEval基于真实开源项目构建，分级评估模型在不同上下文中的表现。实验结果显示，模型在自包含函数生成上表现较好，但依赖上下文信息的任务表现有待提升。CoderEval论文已发表在ICSE 2024，项目已开源。

🎯

关键要点

华为云软件分析Lab介绍了CoderEval评估基准，用于评估代码生成模型。
CoderEval基于真实开源项目构建，分级评估模型在不同上下文中的表现。
实验结果显示，模型在自包含函数生成上表现较好，但依赖上下文信息的任务表现有待提升。
CoderEval论文已发表在ICSE 2024，项目已开源。
CoderEval解决了HumanEval的局限性，提供了更全面的评估。
CoderEval由生成任务、测试代码和测试环境三部分组成。
支持函数/方法块级生成、代码片段级生成和代码行级补全三类任务。
提供基于运行的指标和基于比较的指标，支持更细粒度的评估。
实测结果显示，ChatGPT在CoderEval上表现优于其他模型，但在依赖上下文的任务上仍有提升空间。
CoderEval致力于成为客观、公正、全面的Benchmark，欢迎社区参与持续迭代和更新。

🏷️

标签

代码生成

➡️

继续阅读

不同模型厂同一家Agentic Infra，AGI时代的地基终于浮出水面
大模型时代的共同选择
实测千问 Qwen3.8 预览版，国产模型开始围攻 Fable 5
还有 DeepSeek、智谱、MiniMax……#欢迎关注爱范儿官方微信公众号：爱范儿（微信号：ifanr），更多精彩内容第一时间为您奉上。
1.5B开源通用VLA模型，冲进具身智能第一梯队
面壁智能发布MiniCPM-Robot系列模型
Kimi K3上线48小时：模型爆火，GPU爆肝，会员停售
市场表现也跟着加速狂飙
围观WAIC模型「读心术」！现场火火火火火
主观世界模型
Get Borderlands 3, Risk of Rain 2 and 13 other great PC games for $15
The aptly-named “2K Megahits 2026 Bundle” from Humble includes 15 Steam games...