量子位 ·

豆包升级了“眼睛”，看APP截图就能写代码了！超低价让多模态AI普惠

💡 原文中文，约4000字，阅读约需10分钟。

📝

内容提要

豆包升级了视觉理解模型，能够通过APP截图生成代码，支持OCR和复杂功能识别。新模型在识别、推理和描述方面表现优异，价格低廉，适用于多个行业。

🎯

🔎

豆包的视觉理解模型在多个行业的应用潜力巨大。通过支持OCR和复杂功能识别，企业可以利用这一技术提升工作效率，尤其是在数据提取和自动化开发方面。随着技术的普及，预计将推动更多行业的数字化转型。

豆包在与OpenAI的GPT-4o的比拼中表现出色，尤其在复杂物体识别和数学推理方面。这样的比较不仅展示了豆包的技术优势，也为用户选择合适的AI工具提供了参考，尤其是在需要高精度识别的场景中。

豆包的定价策略极具竞争力，处理284张图片仅需1元。这种低成本的优势使得多模态AI技术更易于普及，尤其对中小企业而言，能够以较低的投入获得高效的技术支持，降低了技术应用的门槛。

❓

豆包的视觉理解模型可以通过APP截图生成代码，支持OCR、图像知识、动作情绪和位置状态等功能。

豆包的视觉理解模型处理284张图片仅需1元，价格非常低廉。

在多轮比拼中，豆包在复杂物体识别、数学推理等方面表现优于GPT-4o。

豆包的音乐模型可以生成完整的三分钟音乐，并支持用图片作曲。

豆包大模型已在科教、金融、医疗等多个行业落地应用，并与多个头部企业达成合作。

HiAgent提供超100个行业应用模板，支持多模态交互；扣子支持200万智能体，帮助企业快速实现AI能力嵌入。

🏷️