量子位 ·

火山引擎发布豆包最新图像编辑、同传模型，加速Agent开发落地

💡 原文中文，约1600字，阅读约需4分钟。

📝

内容提要

火山引擎发布豆包系列新模型，包括图像编辑模型3.0和同声传译模型2.0，提升了指令遵循和语音延迟，支持多模态检索，并推出开源开发工具和模型托管方案，助力企业AI应用落地。

🎯

🔎

豆包·图像编辑模型3.0通过提升指令遵循能力和生成质量，能够满足广告营销和影像创作等行业的需求。企业用户可以利用该模型进行高效的图像处理，提升创作效率和质量，尤其是在快速变化的市场环境中，能够更好地适应客户需求。

豆包·同声传译模型2.0显著降低了语音延迟，提升了跨语言沟通的沉浸感。这一技术突破使得实时翻译更加流畅，适用于会议、在线教育等场景，企业在国际交流中将受益匪浅，能够更有效地进行信息传递和沟通。

火山引擎的自有模型托管方案为企业提供了灵活的部署选择，降低了运维成本。企业无需管理底层硬件资源，能够专注于模型的开发与应用，尤其适合资源有限的小型企业和初创公司，提升了AI技术的可及性。

❓

豆包·图像编辑模型3.0支持自然语言指令，能够进行消除冗余、调整光影、替换元素、风格转换、材质变换等多种图像编辑操作。

同声传译模型2.0将语音延迟从8-10秒降至2-3秒，支持实时生成同音色外语语音。

自有模型托管方案允许企业无需运维底层GPU资源，享受弹性算力，并可精准控制时延，降低运营成本。

豆包大模型1.6系列在常用输入文本长度区间内，每百万tokens输入仅0.15元，输出1.5元，实现了成本降低70%。

火山引擎优化了AI云原生服务，推出了开源的扣子核心能力和开发工具，支持Agent开发的全链条服务。

Seed1.6-Embedding实现了文本、图像、视频的混合模态融合检索，助力企业构建多模态知识库。

🏷️