最近,研究通过L2CEval系统评估了大型语言模型在语言到代码生成能力方面的表现,并分析了影响性能的因素。研究还衡量了模型的置信度校准情况,并对输出的程序进行人工评估。该研究提供了对模型能力和限制的全面了解,并发布了评估框架和模型输出,为未来研究奠定基础。
正在访问的资源需要验证您是否真人。
或在微信中搜索公众号“小红花技术领袖”并关注
第二步:在公众号对话中发送验证码: