小红花·文摘

本研究首次证明了通过语音音频学习强大表征并在转录语音上微调的可行性，超越了半监督方法。提出的AudioLM框架将音频生成视为语言建模任务，能够生成自然连贯的音频。研究还介绍了TokenSplit模型用于语音分离，表现出色。SpeechTokenizer在语音合成中表现优异，SemantiCodec则以低比特率压缩音频，提升重构质量和语义信息。