实时互动网 ·

Google 发布 Gemini 3.5 Live Translate：一款支持 70 多种语言的流式语音翻译音频模型

💡 原文中文，约2400字，阅读约需6分钟。

📝

内容提要

谷歌推出了Gemini 3.5实时翻译模型，支持70多种语言的语音翻译。该模型采用连续流处理，翻译内容滞后几秒，适用于会议和通话场景。开发者可通过Live API配置功能，支持音频输入和输出，未来将应用于Google Meet和Translate应用中。

🎯

🔎

Gemini 3.5实时翻译模型适用于多种场景，如多语言通话、会议和课程等。这种灵活性使其在全球化交流中具有重要价值，尤其是在需要即时沟通的情况下。开发者可以利用Live API集成该功能，提升用户体验。

该模型采用连续流处理，能够在说话者发言时实时翻译，减少了传统逐句翻译的延迟。然而，翻译内容仍会滞后几秒，用户在使用时需注意这一点，以免影响沟通流畅性。

通过Live API，开发者可以灵活配置翻译功能，包括选择目标语言和控制音频输入输出。这种高度自定义的能力使得不同应用场景下的需求都能得到满足，提升了开发效率。

❓

Gemini 3.5实时翻译模型支持70多种语言的语音翻译。

翻译内容比说话者滞后几秒，适用于会议和通话场景。

开发者可通过Live API配置功能，使用targetLanguageCode和echoTargetLanguage参数进行设置。

该模型适用于多语言通话、会议、课程和广播等场景。

输入为原始16位PCM音频，采样率为16kHz，输出为24kHz的音频。

Google Meet将使用Gemini 3.5进行语音翻译，支持语言组合从5种扩展至70多种。

🏷️