爱范儿 ·

豆包深度思考模型正式发布！和 o3 一样能「看图思考」，还有一个 Agent 大招

💡 原文中文，约4000字，阅读约需10分钟。

📝

内容提要

近期，AI领域推出了字节的豆包1.5深度思考模型和文生图3.0，具备出色的推理和视觉理解能力。豆包1.5支持“边想边搜”，提升决策效率；文生图3.0可生成2K高清图像，满足专业需求。字节的AI Agent也在持续发展，推动AI应用落地，展现广阔前景。

🎯

🔎

豆包1.5深度思考模型的“边想边搜”功能，结合了推理与搜索，能够在复杂决策中提供更具逻辑性的建议。这种能力不仅适用于购物推荐，还能广泛应用于金融分析和旅游规划等领域，提升用户决策的效率和准确性。

豆包文生图3.0在图像生成方面实现了2K高清输出，适合专业设计需求。其快速生成能力和优化的排版效果，使得创作者能够在与客户沟通时更高效，尤其在海报设计和视觉创意领域，具有显著的实用价值。

字节推出的AI Agent，尤其是OS Agent，展现了跨场景的灵活性和通用性。通过整合多种功能，AI Agent能够完成复杂任务，未来在软件开发和日常应用中可能会大幅提升工作效率，推动AI技术的实际落地。

❓

豆包1.5深度思考模型具备更强的推理效果、极低的响应延迟和全面的多模态能力，支持边想边搜和视觉推理。

文生图3.0在文字排版、图像真实感和高清输出能力上实现突破，支持原生2K分辨率图像生成。

豆包1.5视觉理解模型可用于家庭监控视频的语义搜索、项目管理流程图表解读等场景。

AI Agent分为垂类应用Agent和OS Agent，具备跨场景的通用性和灵活性，能够完成复杂任务。

通过边想边搜功能，模型能在思考过程中进行多轮搜索，使回答更有逻辑和贴近需求，从而提升决策效率。

字节强调务实的浪漫，将AI模型作为解决实际问题的工具，推动AI应用落地，特别是AI Agent的应用。

🏷️