InfoQ ·

Code Arena作为现实世界AI编码性能的新基准正式推出

💡 原文英文，约400词，阅读约需2分钟。

📝

内容提要

LMArena推出了Code Arena，这是一个评估平台，用于测量AI模型在构建完整应用程序中的表现。该平台强调模型的自主行为，允许在模拟开发环境中规划和迭代代码，并记录每个操作以确保透明性和可重复性。它结合了人类判断评分功能和可用性，并引入了新的排行榜，鼓励开发者参与和实验，早期反应积极。

🎯

关键要点

LMArena推出了Code Arena，这是一个评估平台，用于测量AI模型在构建完整应用程序中的表现。
该平台强调模型的自主行为，允许在模拟开发环境中规划和迭代代码。
Code Arena不仅检查代码是否编译，还评估模型如何推理任务、管理文件、反应反馈和逐步构建功能性网页应用。
每个操作都被记录，确保透明性和可重复性，评估过程遵循可再现的路径。
平台引入了持久会话、结构化工具执行和实时渲染应用的功能。
新排行榜专为更新的方法论而建立，确保结果反映一致的环境和评分标准。
社区参与仍然是核心，开发者可以探索实时输出、投票和检查完整项目树。
早期反应积极，社区鼓励实际实验，强调模型在构建真实应用中的能力。
Code Arena为评估AI模型的自主编码能力提供了一个透明、可检查的环境。

❓

延伸问答

Code Arena的主要功能是什么？

Code Arena是一个评估平台，用于测量AI模型在构建完整应用程序中的表现，强调模型的自主行为和透明性。

Code Arena如何确保评估过程的透明性？

每个操作都被记录，确保透明性和可重复性，评估过程遵循可再现的路径。

Code Arena与传统的AI性能基准有什么不同？

Code Arena不仅检查代码是否编译，还评估模型如何推理任务、管理文件和逐步构建功能性网页应用。

Code Arena如何促进开发者的社区参与？

开发者可以探索实时输出、投票和检查完整项目树，社区参与是平台的核心。

Code Arena的排行榜有什么特别之处？

新排行榜专为更新的方法论而建立，确保结果反映一致的环境和评分标准。

Code Arena的早期反应如何？

早期反应积极，社区鼓励实际实验，强调模型在构建真实应用中的能力。

🏷️

继续阅读

微软在Build大会发布七款MAI新模型：顶尖MAI-Thinking-1深度拆解
微软在Build大会上发布了七款新AI模型，特别是MAI-Thinking-1，展示了其完整的AI产业链。通过自研MAIA芯片和大量人类数据训练，微软实现...
谷歌Gemma 4 12B的性能几乎与26B基准相当——并可在您的笔记本电脑上运行
谷歌推出了Gemma 4 12B模型，旨在为标准笔记本电脑提供高性能的多模态智能。该模型内存占用比Gemma 4 26B小一半，但性能接近，支持本地运行，...
Kaggle 使 AI 基准创建变得轻而易举
Kaggle Benchmarks推出本地开发功能，允许开发者在本地环境中创建和验证评估任务。该功能支持使用AI编码代理通过自然语言构建任务，旨在加速AI...
史上最强游戏掌机来了！性能堪比 PS5，但……
坏消息：1 万块#欢迎关注爱范儿官方微信公众号：爱范儿（微信号：ifanr），更多精彩内容第一时间为您奉上。
国星宇航与腾讯云签署“星算”计划战略合作协议，携手领航AI云服务新生态
成都国星宇航与腾讯云签署战略合作协议，聚焦“星算”AI云服务，推动技术共创与生态建设，深化云服务与AI技术融合，助力数字经济发展。
Winxvideo AI 二十周年限免：视频压缩、本地AI提升画质、防抖
Winxvideo AI 正在进行二十周年限免活动，用户只需提供邮箱即可获取注册码。该软件集视频增强、图片修复、格式转换等功能于一体，支持超分辨率提升、帧...