LMArena推出了Code Arena,这是一个评估平台,用于测量AI模型在构建完整应用程序中的表现。该平台强调模型的自主行为,允许在模拟开发环境中规划和迭代代码,并记录每个操作以确保透明性和可重复性。它结合了人类判断评分功能和可用性,并引入了新的排行榜,鼓励开发者参与和实验,早期反应积极。
完成下面两步后,将自动完成登录并继续当前操作。