CodeApex: A Bilingual Benchmark for Evaluating Large Language Models in Programming
原文约100字/词,阅读约需1分钟。发表于: 。CodeApex 是一个双语基准数据集,专注于评估大型语言模型(LLMs)在编程理解和代码生成能力上。数据集由三种类型的多项选择题组成,用于评估 LLMs 在编程理解任务上的能力,同时利用算法问题和相应的测试用例来评估 LLMs 生成的代码质量。通过评估包括通用和专用模型在内的 14 个先进 LLMs,发现 GPT 展现出最佳的编程能力,在两个任务上分别达到了约 50% 和 56%...
CodeApex是一个双语基准数据集,用于评估大型语言模型在编程理解和代码生成方面的能力。通过评估14个先进的语言模型,发现GPT在编程能力方面表现最佳。希望CodeApex能够推动语言模型的发展和增长。