量子位 ·

华为开源7B多模态模型，视觉定位和OCR能力出色，你的昇腾端侧“新甜点”来了

💡 原文中文，约1500字，阅读约需4分钟。

📝

内容提要

华为推出开源的7B多模态模型openPangu-VL-7B，具备卓越的视觉定位和OCR能力，适用于多种终端场景。该模型在图像处理和文档理解任务中表现优异，推理性能高效，支持实时应用，创新设计提升了训练效果，为开发者提供实用技术参考，丰富了昇腾生态。

🎯

关键要点

华为推出开源的7B多模态模型openPangu-VL-7B，具备卓越的视觉定位和OCR能力。
该模型适用于多种终端场景，轻量化特性使其灵活适配。
openPangu-VL-7B在图像处理和文档理解任务中表现优异，推理性能高效。
模型在预训练阶段完成了3T+tokens的长稳训练，为开发者提供实践参考。
在视觉问答、文档理解、视觉定位等任务上表现突出，力压同量级模型。
模型采用适配昇腾的高性能视觉编码器，提升了吞吐量。
创新的样本均衡损失设计解决了不同长度训练样本的学习均衡问题。
采用带填充的定位数据格式，提升了视觉定位的精度和效率。
openPangu-VL-7B的开源为端侧开发和个人使用提供了新选择，丰富了昇腾生态。

❓

延伸问答

openPangu-VL-7B模型的主要特点是什么？

openPangu-VL-7B模型具备卓越的视觉定位和OCR能力，适用于多种终端场景，具有轻量化特性和高效的推理性能。

openPangu-VL-7B在图像处理方面的表现如何？

该模型在图像处理和文档理解任务中表现优异，能够进行实时推理，且在开源榜单中力压同量级模型。

openPangu-VL-7B的训练过程有什么创新之处？

模型在预训练阶段完成了3T+tokens的长稳训练，并采用了样本均衡的损失设计，提升了训练效果。

openPangu-VL-7B如何提升视觉定位的精度？

模型采用带填充的定位数据格式，整齐的三个token进行位置回归，显著提升了视觉定位的精度和效率。

openPangu-VL-7B适合哪些应用场景？

该模型适用于视觉问答、文档理解、视觉定位和短视频理解等多种应用场景。

openPangu-VL-7B的开源对开发者有什么好处？

开源为端侧开发和个人使用提供了新选择，丰富了昇腾生态的应用场景，为创新注入新动力。

🏷️

继续阅读

在线教程丨英伟达开源LocateAnything，3B模型可实现图像+视频的目标指向/开放词汇目标检测/指代表达定位/OCR文本定位等功能
NVIDIA 最近推出了视觉语言定位模型LocateAnything-3B，拥有30亿参数，支持多种视觉定位任务。其核心创新为并行框解码（PBD），显著提...
机器人运控训练步入分钟级时代！清华AIR开源UniLab：3分钟训好人形，速度暴涨10倍，Mac上也能跑
清华大学智能产业研究院推出了全新的机器人强化学习训练架构UniLab，打破了传统依赖GPU的训练模式。UniLab通过将仿真解耦到CPU侧，实现了更高的训...
JetBrains开源Mellum2，以超越Claude Code的局限
JetBrains发布了Mellum2，这是一个开源的12B参数编码模型，专注于AI系统的基础设施层。Mellum2支持更广泛的任务，如模型协调和子代理工...
百度文心发布 PaddleOCR-VL-1.6：准确率突破 96.33%，刷新文档解析 SOTA
百度发布的PaddleOCR-VL-1.6在OmniDocBench v1.6评测中准确率超过96.3%，综合性能全球第一，支持100多种语言，适应复杂文...
Hermes Desktop – 从安装到使用，完整的 Hermes-Agent 桌面客户端
Hermes Desktop 是一款支持 Windows、macOS 和 Linux 的开源 AI 客户端，能够管理聊天、会话和配置文件。它简化了 Her...
字节开源统一框架Bernini：给DiT配个“大模型军师”，AI视频编辑先理解再动手
字节推出了开源视频生成与编辑框架Bernini，强调“先理解再生成”。该框架利用多模态大模型进行语义理解，并通过扩散模型实现高质量渲染，解决视频编辑中的一...