Blog on Qwen ·

QVQ: A Smarter Way to Perceive the World

💡 原文英文，约3400词，阅读约需13分钟。

📝

内容提要

文章讨论了QVQ模型的开发，该模型基于Qwen2-VL-72B，旨在增强人工智能的视觉理解和推理能力。QVQ在视觉推理和复杂问题解决方面表现优异，但仍存在语言混合、递归推理和安全性等局限性。未来，团队计划整合多模态信息，以提升模型智能水平。

🎯

关键要点

QVQ模型是基于Qwen2-VL-72B构建的开源多模态推理模型，旨在增强人工智能的视觉理解和推理能力。
QVQ在视觉推理和复杂问题解决方面表现优异，在MMMU评测中取得了70.3的分数，显著超越了Qwen2-VL-72B-Instruct。
模型存在语言混合、递归推理和安全性等局限性，需增强安全措施以确保可靠性能。
未来计划整合多模态信息，以提升模型的智能水平，能够应对更复杂的挑战。

❓

延伸问答

QVQ模型的主要目标是什么？

QVQ模型的主要目标是增强人工智能的视觉理解和推理能力。

QVQ在MMMU评测中的表现如何？

QVQ在MMMU评测中取得了70.3的分数，显著超越了Qwen2-VL-72B-Instruct。

QVQ模型存在哪些局限性？

QVQ模型存在语言混合、递归推理和安全性等局限性。

未来QVQ团队有什么计划？

未来QVQ团队计划整合多模态信息，以提升模型的智能水平。

QVQ模型是基于哪个模型构建的？

QVQ模型是基于Qwen2-VL-72B构建的开源多模态推理模型。

QVQ在复杂问题解决方面的表现如何？

QVQ在复杂问题解决方面表现优异，尤其在视觉推理任务中展现出增强的能力。

🏷️

标签

QVQ模型人工智能多模态信息推理能力视觉理解

➡️

继续阅读

Claude Fable在一次编码测试中花费9美元，而GPT-5.5则花费1.50美元。模型筛选是新的AI技能。
文章讨论了人工智能（AI）模型的选择和使用策略，强调掌握AI技能的重要性。Anthropic公司因遵循美国政府的出口控制指令，暂时禁用了Fable 5和M...
30天消耗60万亿Tokens！Meta发布备忘录宣布限制员工的AI用量以控制成本
Meta 正在限制员工的人工智能使用量，因最近 30 天内消耗高达 60 万亿 Tokens，预计将导致数十亿美元的支出。公司采取 Tokens 最小化策...
2026 年，AI 长出了四个轮子，驶向物理世界
近年来，人工智能正在向物理世界迁移。赛豆科技推出的AIVA品牌强调AI在汽车设计中的重要性，改变了传统的汽车制造模式。AIVA通过深度学习用户需求，提升驾...
人工智能是否已经扼杀了实用类非小说书籍？销售趋势、我的个人数据以及这对未来可能意味着什么
人工智能正在迅速改变非小说类书籍市场。2026年，成人非小说类书籍销量预计下降9%，自助类书籍下降26.3%。Tim Ferriss的书籍销量预计将比20...
杰夫·贝索斯的AI初创公司旨在打造“通用人工工程师”
亚马逊创始人杰夫·贝索斯的新AI初创公司Prometheus致力于开发“通用人工工程师”，提供用于机器人、药物设计和制造的AI工程工具。该公司最近融资获得...
AWS Introduces Durable Storage Option for ElastiCache for Valkey
AWS has recently introduced durability for Amazon ElastiCache for Valkey, ena...