EvoCodeBench:一个具有领域特定评估的代码生成基准
原文中文,约300字,阅读约需1分钟。发表于: 。本研究解决了大型语言模型(LLMs)在代码生成评估中的数据泄露和缺乏领域特定评估的问题。提出的EvoCodeBench基准通过动态更新数据、设计领域分类法和执行领域特定评估,帮助实践者选择适合特定编程领域的优越LLMs。研究发现,gpt-4在实用库中的最高通过率仅为20.74%,并揭示了不同LLMs在各领域的表现差异。
本研究提出EvoCodeBench基准,以解决大型语言模型在代码生成评估中的数据泄露和领域特定评估问题。研究显示,GPT-4在实用库中的最高通过率仅为20.74%,不同语言模型在各领域的表现差异显著。