内容提要
Inworld与Modular合作成功,'Inworld TTS 1 MAX'模型在语音排行榜中位列第一。该平台测试了超过100种LLM,评估其智能、速度和成本。两款模型支持12种语言,具备语音克隆和情感标签功能,提升了文本转语音的性能与效率。
关键要点
-
Inworld与Modular合作成功,'Inworld TTS 1 MAX'模型在语音排行榜中位列第一。
-
Artificial Analysis是一个独立的基准测试平台,测试超过100种LLM的智能、速度和成本。
-
语音排行榜基于用户的偏好,比较生成的语音并选择更喜欢的输出。
-
Inworld TTS 1 Max和Inworld TTS 1支持12种语言,具备语音克隆和情感标签功能。
-
Inworld TTS 1的平均生成速度为每秒约153个字符,Inworld TTS 1 Max为每秒约69个字符。
-
两款模型均基于变换器的自回归模型,使用LLaMA-3.2-1B和LLaMA-3.1-8B作为其SpeechLM基础。
-
与Modular的合作使得API的合成音频返回速度提高了约70%,延迟降低至200毫秒。
-
通过使用Modular的技术栈,API的价格降低了约60%。
延伸问答
Inworld TTS 1 MAX模型的排名如何?
Inworld TTS 1 MAX模型在人工分析的语音排行榜中位列第一。
Artificial Analysis平台的作用是什么?
Artificial Analysis是一个独立的基准测试平台,测试超过100种LLM的智能、速度和成本。
Inworld TTS 1和TTS 1 MAX支持哪些语言?
这两款模型支持12种语言,包括英语、西班牙语、法语、韩语和中文。
Inworld TTS 1和TTS 1 MAX的生成速度分别是多少?
Inworld TTS 1的平均生成速度为每秒约153个字符,TTS 1 MAX为每秒约69个字符。
与Modular的合作对API性能有什么影响?
与Modular的合作使得API的合成音频返回速度提高了约70%,延迟降低至200毫秒。
Inworld TTS 1 MAX模型的情感标签功能是什么?
该模型支持语音标签,允许用户添加情感、传递风格和非语言声音,如“低语”、“咳嗽”和“惊讶”。