AudioLM是一个高质量的音频生成框架,通过将输入音频映射为离散令牌序列,并在该表示空间中将音频生成视为一种语言建模任务。它可以生成自然、连贯的音频持续时间,无需文件、笔录或注释,并对未见过的讲话者也能保持语法和语义合理。同时,它还能生成连贯的钢琴音乐持续时间,超越了语音。
AudioLM是一个高质量的音频生成框架,通过将输入音频映射为离散令牌序列,并在该表示空间中将音频生成视为一种语言建模任务。它通过混合标记方案实现了重建质量和长期结构两个目标,并通过大量的音频波形语料库进行了训练,可以生成自然、连贯的音频持续时间。
完成下面两步后,将自动完成登录并继续当前操作。