高效代码生成的语言模型评估

本研究针对传统编程基准无法有效评估代码效率的问题，提出了一种新颖的框架“差异性能评估”（DPE）。DPE通过专注于具有效率需求的编程任务，并建立复合性能评估指标，显著改善了代码效率的评估过程，最终构建出包含121个性能挑战任务的基准EvalPerf，揭示了模型规模及指令调优对代码效率的影响。

最近，研究通过L2CEval系统评估了大型语言模型在语言到代码生成能力方面的表现，并分析了影响性能的因素。研究还衡量了模型的置信度校准情况，并对输出的程序进行人工评估。该研究提供了对模型能力和限制的全面了解，并发布了评估框架和模型输出，为未来研究奠定基础。

L2CEval系统代码生成能力置信度校准评估框架语言模型