The JetBrains Blog ·

长代码竞技场：AI模型能多好地理解你的整个项目？

💡 原文英文，约1200词，阅读约需5分钟。

📝

内容提要

JetBrains Research推出了Long Code Arena，包含六个基准测试，要求模型以整个项目作为输入。这些测试将帮助研究人员训练下一代智能AI代码模型。GPT-4在多个任务中表现最好。Long Code Arena是领域内第一个具有大量上下文的数据集，将推动代码模型的发展。

🎯

❓

Long Code Arena是一个包含六个基准测试的数据集，要求AI模型以整个项目作为输入，以帮助训练下一代智能AI代码模型。

GPT-4在多个任务中表现最好，但仍有改进空间，特别是在使用API方面仅使用了37%的参考解决方案。

基准测试包括代码生成、修复失败的CI构建、代码补全、生成提交信息、错误定位和代码总结。

Long Code Arena提供了一个具有大量上下文的数据集，帮助研究人员训练更强大的AI代码模型，从而推动代码模型的发展。

即使是最好的模型，GPT-3.5，也只能修复17%的失败构建，表明在这一领域仍需大量改进。

Long Code Arena为未来的研究提供了重要的数据集，旨在提高代码模型的能力，促进更复杂的代码理解和生成。

🏷️