内容提要
Inworld AI 推出了 TTS-1.5,显著提升了实时语音代理的延迟和质量。Max 型号音频延迟低于 250 毫秒,Mini 型号低于 130 毫秒,性能和稳定性分别提高 30% 和 40%。该系统支持 15 种语言,并提供语音克隆功能,定价合理,适合高使用率产品。
关键要点
-
Inworld AI 推出了 TTS-1.5,专为实时语音代理设计,提升了延迟和质量。
-
TTS-1.5 Max 型号音频延迟低于 250 毫秒,Mini 型号低于 130 毫秒,性能和稳定性分别提高 30% 和 40%。
-
TTS-1.5 支持通过 WebSocket 进行流式传输,提升了用户感知响应速度。
-
TTS-1.5 提供两种主要配置方案,Mini 版每百万字符收费 5 美元,Max 版每百万字符收费 10 美元。
-
该系统支持 15 种语言,并提供即时和专业的语音克隆功能。
-
TTS-1.5 可作为云 API 使用或本地部署,适用于需要控制延迟、质量和数据的实时代理。
延伸问答
TTS-1.5的主要特点是什么?
TTS-1.5专为实时语音代理设计,提升了延迟和质量,Max型号延迟低于250毫秒,Mini型号低于130毫秒,性能和稳定性分别提高30%和40%。
TTS-1.5的定价结构是怎样的?
TTS-1.5 Mini版每百万字符收费5美元,Max版每百万字符收费10美元,适合高使用率产品。
TTS-1.5支持哪些语言?
TTS-1.5支持15种语言,包括英语、西班牙语、法语、中文等。
TTS-1.5的语音克隆功能如何?
TTS-1.5提供即时和专业的语音克隆功能,即时克隆需约15秒音频,专业克隆需至少30分钟的纯净音频。
TTS-1.5的延迟性能如何?
TTS-1.5 Max型号的P90首次音频延迟低于250毫秒,Mini型号低于130毫秒,比上一代快约4倍。
TTS-1.5可以如何部署?
TTS-1.5可以作为云API使用或本地部署,确保数据主权和合规性。