机器之心 ·

阿里云通义开源Qwen2.5-VL，视觉理解能力全面超越GPT-4o

💡 原文中文，约1900字，阅读约需5分钟。

📝

内容提要

阿里云发布的新视觉模型Qwen2.5-VL包含三个版本，旗舰版在13项评测中超越GPT-4o和Claude3.5。该模型能够准确解析图像和视频，支持复杂操作，如发送祝福和订票，并在视觉理解、文档解析和动态视频处理方面有显著提升，开发者可基于此模型创建AI智能体。

🎯

关键要点

阿里云发布的新视觉模型Qwen2.5-VL包含三个版本：3B、7B和72B。
旗舰版Qwen2.5-VL-72B在13项评测中超越GPT-4o和Claude3.5，成为视觉理解冠军。
Qwen2.5-VL能够准确解析图像和视频，支持复杂操作，如发送祝福和订票。
该模型在视觉理解、文档解析和动态视频处理方面有显著提升。
开发者可以基于Qwen2.5-VL创建AI智能体，进行多步骤复杂任务。
Qwen2.5-VL的OCR能力提升，能够更好地理解图表和文档格式。
新模型引入动态帧率训练和绝对时间编码技术，增强视频理解能力。
Qwen2.5-VL可以实时与用户对话，自动化完成任务。
模型技术方面，Qwen2.5-VL增强了时间和空间尺度的感知能力，简化了网络结构。
不同尺寸及量化版本的Qwen2.5-VL模型已在多个平台开源，开发者可直接体验。

❓

延伸问答

Qwen2.5-VL的主要功能是什么？

Qwen2.5-VL能够准确解析图像和视频，支持复杂操作，如发送祝福和订票。

Qwen2.5-VL与GPT-4o相比有什么优势？

Qwen2.5-VL在13项评测中超越了GPT-4o和Claude3.5，成为视觉理解冠军。

开发者如何使用Qwen2.5-VL创建AI智能体？

开发者可以基于Qwen2.5-VL创建AI智能体，进行多步骤复杂任务的自动化处理。

Qwen2.5-VL在视频理解方面有哪些新技术？

新模型引入了动态帧率训练和绝对时间编码技术，增强了视频理解能力。

Qwen2.5-VL的OCR能力有什么提升？

Qwen2.5-VL的OCR能力提升，能够更好地理解图表和文档格式，精准识别和定位信息。

Qwen2.5-VL的不同版本有哪些？

Qwen2.5-VL包含三个版本：3B、7B和72B。

🏷️

继续阅读

AI智能体安全四件套：从PII泄露到400美元账单的教训
本文分享了作者在开发AI智能体时的经验，强调了四个安全措施：输入检查、输出检查、成本断路器和工具调用检查。这些措施能有效避免隐私泄露和高额账单，确保AI安全运行。
Cloudflare观测数据显示全网机器人流量已经超过真实人类产生的访问
Cloudflare数据显示，机器人流量已超过真实人类流量，达到57.5%。这一增长与AI智能体的快速采用密切相关。尽管机器人流量在HTTP请求中占比更高...
阿里开源Open Code Review：一款AI代码评审命令行工具
阿里巴巴开源的Open Code Review（OCR）是一款AI代码审查工具，能够自动审查Git提交和代码变更。它通过分析代码库，识别潜在的空指针、线程...
[开源] 阿里巴巴发布AI驱动的代码审查工具Open Code Review 帮助开发者审查代码
阿里巴巴开源了基于人工智能的代码审查工具Open Code Review（OCR），旨在解决传统审查中的覆盖不全、位置漂移和不稳定等问题。开发者可通过配置...
Roku LT OS开源解析：从遥控器系统到电动赛车控制平台
Roku开源了Roku LT OS，旨在为开发者提供轻量化架构和高度确定性的执行能力，适用于嵌入式设备和电动赛车。该系统强调资源控制和时间可预测性，已在电...
开始在 Amazon Bedrock 上使用 OpenAI GPT-5.5、GPT-5.4 模型和 Codex
OpenAI的GPT-5.5和GPT-5.4模型以及Codex已在Amazon Bedrock平台上线。这些模型专注于代码编写和复杂工作流程，支持开发者通...