量子位 ·

杭州领跑AI开源！阿里Qwen除夕开源视觉理解新旗舰，全系列3尺寸，7B模型超GPT-4o-mini

💡 原文中文，约3900字，阅读约需10分钟。

📝

内容提要

阿里通义发布了新视觉理解模型Qwen2.5-VL，支持多种任务，包含3B、7B和72B三个版本。该模型在文档解析、图像识别和视频理解方面表现优异，已全面开源。Qwen2.5-VL具备视觉Agent能力，能够操作设备并理解长视频，提升多模态处理能力，未来将增强推理能力。

🎯

🔎

Qwen2.5-VL在多模态处理能力上有显著提升，尤其是在理解长视频和复杂文档方面。这使得它在实际应用中能够更好地满足用户需求，如在教育、媒体和商业领域的文档解析和视频分析。用户在选择模型时，应关注其在特定任务中的表现，以确保满足实际应用场景的需求。

Qwen2.5-VL具备作为视觉Agent的能力，能够操作设备并执行任务。这一特性为未来的智能家居、自动化办公等场景提供了可能性。然而，用户在使用时需注意模型的执行速度和准确性，确保其在实际操作中的可靠性。

Qwen2.5-VL的全面开源为开发者和研究者提供了丰富的资源，促进了AI技术的创新与应用。然而，开源也意味着竞争加剧，开发者需要不断优化模型以保持领先地位。此外，开源模型的安全性和隐私保护问题也需引起重视。

❓

Qwen2.5-VL模型包含3B、7B和72B三个版本。

Qwen2.5-VL具备视觉定位、通用图像识别、文档解析、设备操作、视频理解和文字识别等能力。

Qwen2.5-VL采用QwenVL HTML格式，能够精准识别文档文本并提取元素位置信息。

Qwen2.5-VL作为视觉Agent，能够操作设备并理解长视频，执行任务无需特定微调。

Qwen2.5-VL支持超长视频理解和事件定位，能够处理小时级别的视频内容。

Qwen2.5-VL增强了OCR识别能力，支持多场景、多语言和多方向的文本识别。

🏷️