CodeARC:大型语言模型代理的归纳程序合成推理能力评估

📝

内容提要

本研究针对大型语言模型在归纳程序合成中的不足,提出了CodeARC框架,允许代理通过与隐藏目标函数交互进行评估。该方法通过反馈机制促进代理的自我修正,构建了首个大规模的归纳程序合成基准,揭示了任务的复杂性,并为评估LLM的程序合成和推理能力提供了更现实的测试平台。

🏷️

标签

➡️

继续阅读