💡 原文中文,约1900字,阅读约需5分钟。
📝

内容提要

Inworld AI 推出了 TTS-1.5,显著提升了实时语音代理的延迟和质量。Max 型号音频延迟低于 250 毫秒,Mini 型号低于 130 毫秒,性能和稳定性分别提高 30% 和 40%。该系统支持 15 种语言,并提供语音克隆功能,定价合理,适合高使用率产品。

🎯

关键要点

  • Inworld AI 推出了 TTS-1.5,专为实时语音代理设计,提升了延迟和质量。
  • TTS-1.5 Max 型号音频延迟低于 250 毫秒,Mini 型号低于 130 毫秒,性能和稳定性分别提高 30% 和 40%。
  • TTS-1.5 支持通过 WebSocket 进行流式传输,提升了用户感知响应速度。
  • TTS-1.5 提供两种主要配置方案,Mini 版每百万字符收费 5 美元,Max 版每百万字符收费 10 美元。
  • 该系统支持 15 种语言,并提供即时和专业的语音克隆功能。
  • TTS-1.5 可作为云 API 使用或本地部署,适用于需要控制延迟、质量和数据的实时代理。