实时互动网 ·

Inworld AI 发布 TTS-1.5，用于实时、生产级语音代理

💡 原文中文，约1900字，阅读约需5分钟。

📝

内容提要

Inworld AI 推出了 TTS-1.5，显著提升了实时语音代理的延迟和质量。Max 型号音频延迟低于 250 毫秒，Mini 型号低于 130 毫秒，性能和稳定性分别提高 30% 和 40%。该系统支持 15 种语言，并提供语音克隆功能，定价合理，适合高使用率产品。

🎯

关键要点

Inworld AI 推出了 TTS-1.5，专为实时语音代理设计，提升了延迟和质量。
TTS-1.5 Max 型号音频延迟低于 250 毫秒，Mini 型号低于 130 毫秒，性能和稳定性分别提高 30% 和 40%。
TTS-1.5 支持通过 WebSocket 进行流式传输，提升了用户感知响应速度。
TTS-1.5 提供两种主要配置方案，Mini 版每百万字符收费 5 美元，Max 版每百万字符收费 10 美元。
该系统支持 15 种语言，并提供即时和专业的语音克隆功能。
TTS-1.5 可作为云 API 使用或本地部署，适用于需要控制延迟、质量和数据的实时代理。

🔎

延伸解读

实时语音代理的应用场景

TTS-1.5 的低延迟和高稳定性使其非常适合实时语音助手、在线教育和客户支持等场景。在这些应用中，用户体验依赖于快速、流畅的语音反馈，TTS-1.5 的性能提升能够显著改善用户满意度。

多语言支持的市场优势

TTS-1.5 支持 15 种语言，这使得企业能够在全球范围内快速部署语音解决方案，而无需为每个市场单独开发模型。这种灵活性不仅降低了开发成本，还能加速产品的市场推广。

语音克隆功能的实用性

TTS-1.5 提供即时和专业的语音克隆功能，能够根据短音频快速生成自定义声音。这对于品牌营销和个性化用户体验至关重要，企业可以利用这一功能提升品牌识别度和用户互动。

部署选项与数据控制

TTS-1.5 提供云 API 和本地部署两种选项，企业可以根据自身需求选择合适的部署方式。本地部署有助于确保数据安全和合规性，适合对数据隐私有严格要求的行业。

❓

延伸问答

TTS-1.5的主要特点是什么？

TTS-1.5专为实时语音代理设计，提升了延迟和质量，Max型号延迟低于250毫秒，Mini型号低于130毫秒，性能和稳定性分别提高30%和40%。

TTS-1.5的定价结构是怎样的？

TTS-1.5 Mini版每百万字符收费5美元，Max版每百万字符收费10美元，适合高使用率产品。

TTS-1.5支持哪些语言？

TTS-1.5支持15种语言，包括英语、西班牙语、法语、中文等。

TTS-1.5的语音克隆功能如何？

TTS-1.5提供即时和专业的语音克隆功能，即时克隆需约15秒音频，专业克隆需至少30分钟的纯净音频。

TTS-1.5的延迟性能如何？

TTS-1.5 Max型号的P90首次音频延迟低于250毫秒，Mini型号低于130毫秒，比上一代快约4倍。

TTS-1.5可以如何部署？

TTS-1.5可以作为云API使用或本地部署，确保数据主权和合规性。

🏷️