实时互动网 ·

豆包·同声传译模型2.0来了：3s延迟，实时声音复刻

💡 原文中文，约1200字，阅读约需3分钟。

📝

内容提要

火山引擎推出的豆包·同声传译模型Seed LiveInterpret 2.0，支持中英同传，延迟仅2-3秒，无需样本即可复刻音色，适合国际会议和日常交流，提升跨语言沟通体验。

🎯

🔎

豆包·同声传译模型2.0的低延迟和高准确率使其在国际会议和跨境谈判中表现出色。其‘0样本’声音复刻技术，能够在实时交流中保持音色一致，提升了参与者的沟通体验。这种技术的应用不仅限于会议，还可扩展到TikTok直播、旅游导览等日常场景，极大地便利了跨语言交流。

与传统机器同传系统相比，豆包·同声传译模型2.0的翻译延迟降低超过60%，实现了真正的‘边听边说’。这种显著的技术进步意味着用户在交流时可以享受更流畅的对话体验，减少了因延迟造成的沟通障碍，尤其在需要快速反应的场合尤为重要。

尽管豆包·同声传译模型2.0在技术上取得了显著进展，但在实际应用中仍需关注其在复杂语境下的表现。不同语言的语音特性和文化背景可能影响翻译的准确性和自然度。此外，如何在更广泛的场景中推广和普及这一技术，也是未来发展的重要挑战。

❓

豆包·同声传译模型2.0支持中英同传，延迟仅2-3秒，无需样本即可复刻音色，适合国际会议和日常交流。

该模型翻译延迟降低超60%，实现真正的“边听边说”，并且无需提前录制音频，能够实时复刻声音。

该模型适合国际会议、跨境谈判、TikTok直播、出境旅游和新闻采访等多种场景。

模型无需提前录制音频，可以在说话的同时进行声音采样，实现“0样本”复刻。

该模型的语音延迟可低至2-3秒，接近人类水平。

该模型已在多个国际会议中应用，获得积极反馈，提升中外学者交流效率。

🏷️