亚马逊AWS官方博客 ·

推出 Amazon Nova Sonic：为生成式 AI 应用程序带来类似人类的语音对话体验

💡 原文中文，约3200字，阅读约需8分钟。

📝

内容提要

Amazon Nova Sonic 是一款集成语音理解与生成的模型，简化语音应用开发，支持低延迟对话，能够动态调整语音回复，处理多种说话风格，并具备内容审核功能，适用于客户支持等场景。

🎯

🔎

传统的语音应用开发需要多个模型协作，增加了开发的复杂性。这种碎片化的方法不仅难以维护，还可能导致对话的自然性下降。Amazon Nova Sonic 的推出，旨在通过集成语音理解与生成，简化这一过程，降低开发门槛。

Amazon Nova Sonic 强调负责任的人工智能，内置内容审核和水印保护功能。这些特性不仅提升了用户信任度，也为开发者提供了更安全的环境，确保生成内容的合规性和道德性。

新双向流式传输 API 支持实时低延迟对话，能够处理音频输入和输出。这一技术优势使得 Amazon Nova Sonic 在客户支持等场景中表现出色，能够流畅应对用户的打断，保持对话的连贯性。

❓

Amazon Nova Sonic 集成了语音理解与生成，支持低延迟对话和动态调整语音回复，简化了语音应用开发。

开发者需在 Amazon Bedrock 控制台启用模型访问权限，并使用新的双向流式传输 API 进行音频输入输出。

该模型能够优雅地处理用户打断，保持对话上下文，并在打断后自然继续对话。

目前支持美式和英式英语，未来将支持更多语言和口音。

该模型具备内置的内容审核和水印保护功能，旨在促进负责任的人工智能使用。

在电信行业的应用中，Amazon Nova Sonic 可以处理客户与座席的对话，提供实时信息和情绪分析。

🏷️