小红花·文摘

本研究提出了一种新颖的离散去噪扩散模型架构，专注于钢琴音乐转录。通过引入邻域注意力层和独特的训练策略，该模型在MAESTRO数据集上超越了以往模型，显示出显著的提升潜力。

BriefGPT - AI 论文速递 ·

AudioLM是一个高质量的音频生成框架，通过将输入音频映射为离散令牌序列，并在该表示空间中将音频生成视为一种语言建模任务。它可以生成自然、连贯的音频持续时间，无需文件、笔录或注释，并对未见过的讲话者也能保持语法和语义合理。同时，它还能生成连贯的钢琴音乐持续时间，超越了语音。

BriefGPT - AI 论文速递 ·