小红花·文摘

最近，研究通过L2CEval系统评估了大型语言模型在语言到代码生成方面的能力，并分析了影响性能的因素。研究还衡量了模型的置信度校准情况，并对输出的程序进行了人工评估。L2CEval提供了对模型能力和限制的全面了解，并发布了评估框架和模型输出。