Meta AI 发布 Meta Spirit LM:混合文本和语音的开源多模态语言模型
原文中文,约1900字,阅读约需5分钟。发表于: 。Meta AI 最近发布了 Meta Spirit LM,这是一种创新的开源多模态语言模型,能够自由混合文本和语音。Meta Spirit LM 通过在单词级别集成文本和语音来解决现有 TTS 系统的局限性,使模型能够更无缝地跨模态。
开发高级文本转语音系统的挑战在于缺乏表现力。Meta AI 推出的Meta Spirit LM通过在单词级别整合文本和语音,解决了这一问题。Spirit LM有两个版本:Base和Expressive,后者结合音调和风格标记,生成更自然的语音。该模型能在语音和文本间自由转换,增强多模态AI体验,并在对话代理和教育技术等领域有应用潜力。