量子位 ·

AI大模型看手相！图片视频加持深度思考，阿里QVQ-Max“神了神了”

💡 原文中文，约1700字，阅读约需4分钟。

📝

内容提要

阿里推出的QVQ-Max是一款视觉推理大模型，能够分析手相、识别风景和解答数学题，支持图像和视频的深度思考，具备强大的解析和推理能力，并能生成插画和短视频脚本，用户可免费体验。

🎯

🔎

QVQ-Max不仅能分析手相，还能识别风景和解答数学题。这种多功能性使其在教育、娱乐等多个领域都有潜在应用，用户可以通过简单的图像或视频输入，获得丰富的信息和分析结果。

尽管QVQ-Max在多个测试中表现良好，但其准确性仍依赖于输入的质量和模型的思考长度。用户在使用时需注意，复杂或模糊的图像可能影响分析结果，导致错误的推理或识别。

QVQ-Max的免费体验吸引了大量用户尝试，但也出现了一些识别错误的情况。这表明，尽管技术先进，用户在使用时仍需保持批判性思维，特别是在娱乐性较强的应用场景中。

❓

QVQ-Max能够分析手相、识别风景、解答数学题，并生成插画和短视频脚本。

用户可以通过指定链接免费体验QVQ-Max。

QVQ-Max在MathVision benchmark上表现良好，准确率随着模型思考长度的调整而提升。

用户可以上传手绘简笔画视频，QVQ-Max能够分析视频内容并生成字幕。

QVQ-Max具备强大的图片解析能力，能够快速识别复杂图表和日常照片中的关键元素。

是的，QVQ-Max可以根据用户需求设计插画和生成短视频脚本。

🏷️