小红花·文摘

本研究使用L2CEval系统评估大型语言模型在7个任务中的语言到代码生成能力，并分析影响性能的因素。同时衡量模型置信度校准情况，并对输出程序进行人工评估。研究提供了对LLMs在语言到代码生成方面能力和限制的全面了解，并发布了评估框架和所有模型输出。

BriefGPT - AI 论文速递 ·

本研究使用L2CEval系统评估了大型语言模型在7个任务中的语言到代码生成能力，并分析了影响性能的因素。同时，还衡量了模型的置信度校准情况，并对输出的程序进行了人工评估。研究结果提供了对LLMs在语言到代码生成方面能力和限制的全面了解，并发布了评估框架和所有模型输出。

BriefGPT - AI 论文速递 ·

本研究评估了大型语言模型在语言到代码生成方面的能力，分析了影响性能的因素，并衡量了模型的置信度校准情况。研究结果提供了对LLMs在语言到代码生成方面能力和限制的全面了解，并发布了评估框架和所有模型输出。

BriefGPT - AI 论文速递 ·