量子位 ·

vivo发布端侧多模态模型，只有3B可理解GUI界面，20项评测表现亮眼

💡 原文中文，约5800字，阅读约需14分钟。

📝

内容提要

vivo发布了BlueLM-2.5-3B多模态模型，具备高效的GUI理解能力，支持长短思考模式和思考预算控制。在20项评测中表现优异，优化了训练策略和数据利用效率，显著降低了成本。该模型在文本和多模态任务上领先同规模模型，展现出强大的推理能力。

🎯

关键要点

vivo发布了BlueLM-2.5-3B多模态模型，具备高效的GUI理解能力。
模型支持长短思考模式自由切换，并引入思考预算控制机制。
BlueLM-2.5-3B在20项评测中表现优异，优化了训练策略和数据利用效率。
该模型在文本和多模态任务上领先同规模模型，展现出强大的推理能力。
BlueLM-2.5-3B在文本任务上与同规模模型效果相近，缓解了能力遗忘难题。
在多模态任务上，BlueLM-2.5-3B领先同规模模型，推理能力强。
模型支持文本和多模态的长短思考以及思考预算控制，提升复杂推理任务效果。
BlueLM-2.5-3B在GUI理解能力上全面领先同规模模型。
模型结构紧凑，参数量仅2.9B，具有训练和推理的成本优势。
预训练策略分为多个阶段，提升了训练效率与稳定性。
高质量训练数据支持模型性能，文本和多模态预训练数据显著多于其他模型。
自建高性能训练平台与框架，确保训练效率和稳定性。

❓

延伸问答

BlueLM-2.5-3B模型的主要特点是什么？

BlueLM-2.5-3B模型具备高效的GUI理解能力，支持长短思考模式自由切换，并引入思考预算控制机制。

BlueLM-2.5-3B在评测中表现如何？

在20项评测中，BlueLM-2.5-3B表现优异，尤其在文本和多模态任务上领先同规模模型。

BlueLM-2.5-3B如何优化训练策略？

该模型通过优质数据筛选、自动配比策略以及大规模推理合成数据，显著提升了训练效率与稳定性。

BlueLM-2.5-3B在多模态任务上的表现如何？

在多模态任务上，BlueLM-2.5-3B领先同规模模型，推理能力强，且与更大规模模型效果相近。

BlueLM-2.5-3B的参数量是多少？

BlueLM-2.5-3B的参数量为2.9B，具有训练和推理的成本优势。

BlueLM-2.5-3B如何解决能力遗忘问题？

通过优化数据策略和训练策略，BlueLM-2.5-3B有效缓解了多模态模型训练中的文本能力遗忘难题。

🏷️

继续阅读

晨昏线科技发布目标因果世界模型GCWM1
晨昏线科技发布了“目标因果世界模型（GCWM1）”，旨在提升具身智能的推理能力。该模型通过因果链推理机制，实现理解、预测和干预的闭环。同时，公司推出了Te...
推出数字海洋AI原生云以支持生产级AI工作负载
数字海洋推出了AI原生云，旨在简化AI工作负载的基础设施。该平台整合计算、存储和网络，支持动态系统的高效运行，帮助开发者专注于构建而非系统集成。新功能如推...
使用Wayland在Docker容器中显示GUI
Wayland是Linux的现代显示服务器协议，旨在取代X11协议。从Ubuntu 26.04 LTS开始，Wayland成为默认协议。本文介绍如何在Ub...
如何将小米CodingPlan的Mimo模型接入到OpenClaw
小米推出了Token Plan，开发者可获得免费额度。用户需将MiMo接入龙虾，配置文件中需删除“auth”字段并新增provider。测试显示速度良好，...
小米双模型正式开源！MiMo-V2.5-Pro无中断肝出“macOS”：54个应用全开、浏览器真能冲浪
小米发布的MiMo-V2.5 Pro模型在AI领域取得显著进展，具备强大的长周期任务处理和模糊指令遵循能力。该模型在国际基准测试中表现优异，开源后提高了T...
NVIDIA推出Nemotron 3 Nano Omni模型，整合视觉、音频和语言，实现高达9倍的AI代理效率
NVIDIA推出Nemotron 3 Nano Omni模型，将视觉、音频和语言整合为一个系统，显著提升AI代理的效率和准确性。该模型具备高达9倍的处理能...