InfoQ ·

Windsurf推出Arena模式以便在开发过程中比较AI模型

💡 原文英文，约500词，阅读约需2分钟。

📝

内容提要

Windsurf在其IDE中推出Arena模式，允许开发者在真实编码任务中并行比较大型语言模型，评估模型表现并进行排名。该模式旨在克服现有比较系统的局限性，支持特定模型测试和独立对话，未来还计划增加更细化的排行榜。

🎯

🔎

Arena模式允许开发者在真实的编码任务中直接比较大型语言模型，这种方法比传统的公共基准测试更贴近实际开发环境。开发者可以在熟悉的工作流程中评估模型表现，从而提高选择合适工具的效率。

尽管Arena模式受到社区的热烈欢迎，但也引发了一些怀疑，尤其是关于代币使用和实用性的担忧。开发者在使用过程中需关注这些潜在的成本问题，以确保在评估模型时不会产生过高的开销。

Arena模式与其他开发者AI工具相比，提供了更为直接的模型比较体验。虽然一些工具支持模型切换或背景评估，但Arena模式的用户驱动比较方式使其在实际应用中更具优势，尤其是在复杂的开发任务中。

❓

Arena模式允许开发者在真实编码任务中并行比较大型语言模型，直接评估模型表现。

Arena模式通过在真实项目上下文中进行测试，克服了对表面输出风格敏感和缺乏任务差异反映的局限性。

用户可以选择表现更好的响应，这些投票用于计算模型排名，形成个人和全球排行榜。

Arena模式在有限时间内免费提供所有战斗组的访问权限，之后将发布结果并增加更多模型。

Windsurf还推出了Plan模式，专注于代码生成前的任务规划，帮助开发者定义上下文和约束。

社区对Arena模式的发布反应不一，既有兴奋和赞扬，也有对代币使用和实用性的担忧。

🏷️