Modular:由Modular平台驱动的“TTS 1 Max”在人工分析中排名第一的语音模型

Modular:由Modular平台驱动的“TTS 1 Max”在人工分析中排名第一的语音模型

💡 原文英文,约400词,阅读约需2分钟。
📝

内容提要

Inworld与Modular合作成功,'Inworld TTS 1 MAX'模型在语音排行榜中位列第一。该平台测试了超过100种LLM,评估其智能、速度和成本。两款模型支持12种语言,具备语音克隆和情感标签功能,提升了文本转语音的性能与效率。

🎯

关键要点

  • Inworld与Modular合作成功,'Inworld TTS 1 MAX'模型在语音排行榜中位列第一。

  • Artificial Analysis是一个独立的基准测试平台,测试超过100种LLM的智能、速度和成本。

  • 语音排行榜基于用户的偏好,比较生成的语音并选择更喜欢的输出。

  • Inworld TTS 1 Max和Inworld TTS 1支持12种语言,具备语音克隆和情感标签功能。

  • Inworld TTS 1的平均生成速度为每秒约153个字符,Inworld TTS 1 Max为每秒约69个字符。

  • 两款模型均基于变换器的自回归模型,使用LLaMA-3.2-1B和LLaMA-3.1-8B作为其SpeechLM基础。

  • 与Modular的合作使得API的合成音频返回速度提高了约70%,延迟降低至200毫秒。

  • 通过使用Modular的技术栈,API的价格降低了约60%。

延伸问答

Inworld TTS 1 MAX模型的排名如何?

Inworld TTS 1 MAX模型在人工分析的语音排行榜中位列第一。

Artificial Analysis平台的作用是什么?

Artificial Analysis是一个独立的基准测试平台,测试超过100种LLM的智能、速度和成本。

Inworld TTS 1和TTS 1 MAX支持哪些语言?

这两款模型支持12种语言,包括英语、西班牙语、法语、韩语和中文。

Inworld TTS 1和TTS 1 MAX的生成速度分别是多少?

Inworld TTS 1的平均生成速度为每秒约153个字符,TTS 1 MAX为每秒约69个字符。

与Modular的合作对API性能有什么影响?

与Modular的合作使得API的合成音频返回速度提高了约70%,延迟降低至200毫秒。

Inworld TTS 1 MAX模型的情感标签功能是什么?

该模型支持语音标签,允许用户添加情感、传递风格和非语言声音,如“低语”、“咳嗽”和“惊讶”。

➡️

继续阅读