Inworld AI 发布 TTS-1.5,用于实时、生产级语音代理

Inworld AI 发布 TTS-1.5,用于实时、生产级语音代理

💡 原文中文,约1900字,阅读约需5分钟。
📝

内容提要

Inworld AI 推出了 TTS-1.5,显著提升了实时语音代理的延迟和质量。Max 型号音频延迟低于 250 毫秒,Mini 型号低于 130 毫秒,性能和稳定性分别提高 30% 和 40%。该系统支持 15 种语言,并提供语音克隆功能,定价合理,适合高使用率产品。

🎯

关键要点

  • Inworld AI 推出了 TTS-1.5,专为实时语音代理设计,提升了延迟和质量。

  • TTS-1.5 Max 型号音频延迟低于 250 毫秒,Mini 型号低于 130 毫秒,性能和稳定性分别提高 30% 和 40%。

  • TTS-1.5 支持通过 WebSocket 进行流式传输,提升了用户感知响应速度。

  • TTS-1.5 提供两种主要配置方案,Mini 版每百万字符收费 5 美元,Max 版每百万字符收费 10 美元。

  • 该系统支持 15 种语言,并提供即时和专业的语音克隆功能。

  • TTS-1.5 可作为云 API 使用或本地部署,适用于需要控制延迟、质量和数据的实时代理。

延伸问答

TTS-1.5的主要特点是什么?

TTS-1.5专为实时语音代理设计,提升了延迟和质量,Max型号延迟低于250毫秒,Mini型号低于130毫秒,性能和稳定性分别提高30%和40%。

TTS-1.5的定价结构是怎样的?

TTS-1.5 Mini版每百万字符收费5美元,Max版每百万字符收费10美元,适合高使用率产品。

TTS-1.5支持哪些语言?

TTS-1.5支持15种语言,包括英语、西班牙语、法语、中文等。

TTS-1.5的语音克隆功能如何?

TTS-1.5提供即时和专业的语音克隆功能,即时克隆需约15秒音频,专业克隆需至少30分钟的纯净音频。

TTS-1.5的延迟性能如何?

TTS-1.5 Max型号的P90首次音频延迟低于250毫秒,Mini型号低于130毫秒,比上一代快约4倍。

TTS-1.5可以如何部署?

TTS-1.5可以作为云API使用或本地部署,确保数据主权和合规性。

➡️

继续阅读