最强开源模型易主？Kimi 发布 k2.5 用 Agent 集群解决长文本+视觉生成

爱范儿 ·

最强开源模型易主？Kimi 发布 k2.5 用 Agent 集群解决长文本+视觉生成

💡 原文中文，约2100字，阅读约需5分钟。

📝

内容提要

月之暗面发布了开源模型Kimi k2.5，称其为最强大的开源模型。该模型基于1.5T混合视觉与文本预训练，具备视觉智能体系统，支持1500次并行工具调用，显著提升任务执行效率。Kimi k2.5能够从自然语言生成完整前端界面，并具备视觉调试能力，成为开源界的新王。

🎯

关键要点

月之暗面发布了开源模型Kimi k2.5，称其为最强大的开源模型。
Kimi k2.5基于1.5T混合视觉与文本预训练，具备视觉智能体系统。
该模型支持1500次并行工具调用，显著提升任务执行效率。
Kimi k2.5能够从自然语言生成完整前端界面，并具备视觉调试能力。
引入Agent Swarm架构，支持多达100个智能体并行工作。
Swarm架构将端到端任务的执行时间减少了80%，整体效率提升了4.5倍。
Kimi k2.5支持从自然语言生成动态交互的前端界面，超越传统VLM。
具备视觉调试能力，能够基于视觉反馈修改代码。
在SWE-Bench Verified测试中，Kimi k2.5取得76.8的高分，超越GPT 5.2和DeepSeek V3.2。
Kimi k2.5已在Hugging Face开源，Agent Swarm模式已上线Kimi.com。

❓

延伸问答

Kimi k2.5的主要特点是什么？

Kimi k2.5是基于1.5T混合视觉与文本预训练的多模态模型，具备视觉智能体系统，支持1500次并行工具调用，能够从自然语言生成完整前端界面，并具备视觉调试能力。

Kimi k2.5如何提升任务执行效率？

Kimi k2.5通过引入Agent Swarm架构，支持多达100个智能体并行工作，减少了80%的任务执行时间，整体效率提升了4.5倍。

Kimi k2.5在编程测试中的表现如何？

在SWE-Bench Verified测试中，Kimi k2.5取得了76.8的高分，超越了GPT 5.2和DeepSeek V3.2。

Kimi k2.5的视觉调试能力有什么优势？

Kimi k2.5具备视觉调试能力，能够基于视觉反馈修改代码，确保生成的页面与原视频一致，提升了代码的准确性和可用性。

Kimi k2.5与传统视觉语言模型有什么不同？

Kimi k2.5能够从自然语言生成动态交互的前端界面，而传统视觉语言模型通常只能处理静态内容，缺乏对交互逻辑的理解。

Kimi k2.5的Agent Swarm架构是如何工作的？

Agent Swarm架构允许Kimi k2.5动态创建并指挥多达100个智能体并行工作，能够高效处理复杂任务，避免了传统模型的串行处理瓶颈。

🏷️

继续阅读

机器视觉压缩的三种途径：VCM、FCM 和 V-Nova 通配符
视频编码技术正向机器视觉优化发展，主要有三种方案：面向机器的视频编码（VCM）、面向机器的特征编码（FCM）和V-Nova的LCEVC。VCM优化像素处理...
LeCun 10亿押注的方向，全球领先视觉大模型团队早已布局
视启未来团队专注于开发隐空间世界模型，推动AI从“看见”向“预见”转变。创始人张磊指出，理解因果关系和物理规律至关重要。团队通过提升物体理解能力，推出全球...
Ubuntu 计划为所有文本字段添加 AI 语音输入功能
Ubuntu 26.10 将推出语音输入功能，用户可以通过说话代替打字。该功能由 AI 语言解析模型支持，旨在提升可访问性和便利性。此外，Canonica...
扣子3.0实测：手机就能远程遥控你电脑里的Agent
扣子3.0正式发布，升级了AI团队协作功能。用户可通过简单指令调动多个专业Agent共同完成复杂任务，如制作网页Demo和视频方案。新版本支持多端同步，能...
字节Agent自主优化GPU内核：挑战英伟达CUDA护城河
字节跳动开发的AI CUDA Agent能够自主优化CUDA代码，其性能超越人类专家40%。该AI通过强化学习快速发现传统编译器无法识别的优化技巧，可能会...
亚马逊的搜索栏将生成无法购买的AI生成产品
亚马逊更新了搜索栏，用户可以根据描述查看AI生成的服装和家居商品图片，帮助用户在记不清具体名称时找到所需商品。该功能将于安卓和iOS应用上线。