机器之心 ·

刚刚，豆包1.5·深度思考模型上线，特供「视觉版本」，大模型多模态推理的时代真来了

💡 原文中文，约6200字，阅读约需15分钟。

📝

内容提要

豆包大模型家族推出新版本深度思考模型，具备强大视觉理解和推理能力，支持多模态输入，提升用户体验。同时，豆包文生图模型升级至3.0版本，生成效果显著提升。火山引擎持续推动国产AI技术创新。

🎯

关键要点

豆包大模型家族推出新版本深度思考模型，具备强大视觉理解和推理能力。
豆包文生图模型升级至3.0版本，生成效果显著提升。
豆包1.5・深度思考模型包含两个版本，分别为大语言模型和具备多模态能力的视觉版。
Doubao-1.5-thinking-pro在数学推理、编程竞赛等领域表现突出。
Doubao-1.5-thinking-pro-vision支持视觉推理，提升用户体验。
豆包家族成员升级，视觉理解模型增强了视觉定位和视频搜索能力。
豆包文生图模型3.0实现更好的文字排版、实拍级图像生成和2K高清图片生成。
豆包大模型的日均tokens调用量从4万亿增长至12.7万亿，增长超过106倍。
火山引擎发布了OS Agent解决方案和GUI Agent大模型，推动AI技术创新。
豆包1.5-thinking-pro模型采用MoE架构，具备显著的训练和推理成本优势。
模型在数学、代码、科学等专业领域推理任务中表现接近全球第一梯队水平。
豆包APP基于深度思考模型进行了定向训练，实现联网能力与深度思考的结合。
视觉版模型能够处理多源信息，解决需要综合感知的任务。
豆包1.5・深度思考模型视觉版在医疗诊断和专业内容创作中表现出色。
豆包大模型家族发展到15位成员，持续推动国产AI技术的落地。
火山引擎推出AI IDE和ServingKit推理套件，支持AI应用的落地。
豆包1.5・UI-TARS模型助力客户打造通用智能体，提升交互能力。
火山引擎的工具和解决方案提升了大模型落地的效率和协作。
国产AI技术不断超越，生态协同效应逐渐释放。

🔎

延伸解读

多模态推理的应用前景

豆包1.5·深度思考模型的视觉版具备强大的多模态推理能力，能够处理文本和图像等多源信息。这一特性使其在医疗诊断、专业内容创作等领域展现出色表现，预示着未来AI在复杂场景中的应用将更加广泛和深入。

模型架构与性能优势

豆包1.5·深度思考模型采用MoE架构，显著降低了训练和推理成本。这种高效的架构使得模型在数学、编程等专业领域的推理能力接近全球顶尖水平，为企业在复杂任务中提供了强有力的支持。

国产AI技术的生态协同

火山引擎通过推出一系列工具和解决方案，推动了国产AI技术的落地与生态协同。这不仅提升了大模型的应用效率，也为企业提供了更低成本的推理服务，展现了国产AI技术的持续创新能力。

❓

延伸问答

豆包1.5·深度思考模型的主要功能是什么？

豆包1.5·深度思考模型具备强大的视觉理解和推理能力，支持多模态输入，提升用户体验。

豆包文生图模型3.0版本有哪些显著提升？

豆包文生图模型3.0实现了更好的文字排版、实拍级图像生成和2K高清图片生成。

豆包1.5·深度思考模型在专业领域的表现如何？

该模型在数学推理、编程竞赛等领域表现突出，接近全球第一梯队水平。

豆包1.5·深度思考模型的视觉版有什么特别之处？

视觉版支持视觉推理，能够处理多源信息，解决需要综合感知的任务。

豆包大模型的日均tokens调用量增长了多少？

豆包大模型的日均tokens调用量从4万亿增长至12.7万亿，增长超过106倍。

火山引擎在推动国产AI技术方面做了哪些努力？

火山引擎发布了多项解决方案和工具，推动AI技术的创新和落地。

🏷️