小红花·文摘

如何构建一个支持实时音高和播放控制的基于网页的音频采样器

DEV Community ·

该研究提出了一种新方法AnCoGen，通过掩码自编码器分析、控制和生成语音信号，实现对说话者身份和音高等属性的精确控制，效果显著。

AnCoGen: Analyzing, Controlling, and Generating Speech through Masked Autoencoders

BriefGPT - AI 论文速递 ·

本研究提出了MAJL框架，以解决音乐源分离和音高估计中的数据不足问题。通过双阶段训练和动态加权，MAJL显著提升了这两个任务的性能，超越了现有方法。

MAJL：一种模型无关的联合学习框架用于音乐源分离和音高估计

BriefGPT - AI 论文速递 ·

本文探讨了多种音乐生成技术，包括基于word2vec的语义计算、UTACO歌唱合成模型的注意力机制，以及新型Transformer解码器架构。研究表明，子词分词技术和MelodyGLM框架在旋律生成中表现优异，SongComposer利用LLM技术实现高质量的歌词与旋律生成。这些方法为音乐创作提供了新的工具和思路。

从旋律音符序列到音高的word2vec应用

BriefGPT - AI 论文速递 ·

本文介绍了多种基于深度学习的音乐生成和分离模型，如最大熵原理、变分自编码器和扩散模型。这些模型能够实现音乐创作、风格转换和高质量音频重建，推动了音乐生成技术的发展。

DisMix：为源级音高和音色操控解构多种音乐乐器的混合

BriefGPT - AI 论文速递 ·

本研究介绍了一种基于华文的 MDD（Mispronunciation Detection and Diagnosis）系统，采用无状态的 RNN-T 模型，利用带音高嵌入的 HuBERT 特征通过音高融合块进行训练，该模型仅使用母语人士的数据，在非母语场景中，其在电话错误率上表现出 3％的改进和假接受率上的 7％增加，优于现有技术基准。

基于音高感知的 Mandarin Chinese 语音错误检测与诊断的 RNN-T

BriefGPT - AI 论文速递 ·

HyperGANStrument通过引入超网络提高了GANStrument生成器的重建能力，通过敌对微调改善了重建准确性和多样性，增强了生成能力，提高了生成音频的可编辑性。

HyperGANStrument：使用无论音高如何均不变的超网络进行乐器声音合成与编辑

BriefGPT - AI 论文速递 ·

该研究使用变分自编码器对音乐语料库进行训练，以定义音高和音乐认知中的关键组件之间的等级关系。结果表明，音高离散傅里叶变换的潜空间最好地与认知空间对齐，并提供了一个包含模糊聚类的共同音空间，其中关键字内重叠的对象强加了一种良好定义的结构重要性或稳定性的顺序。不同关键的音调层次结构可以用来测量关键的距离及其音符和和弦在多个层次上的关系。

利用变分自动编码器探索调性音乐的潜在空间

BriefGPT - AI 论文速递 ·

该文介绍了一种增强预训练文本转音频模型可控性的新方法，通过时间戳、语调曲线和能量曲线等额外条件实现对生成音频的时间顺序、音高和能量的精细控制。作者整合了现有数据集，使用评估指标评估可控性能，实验结果表明该模型成功实现了细粒度控制，实现了可控的音频生成。

扩散模型与指导梯度实现可控音乐制作

BriefGPT - AI 论文速递 ·

面向音乐大语言模型的基于内容的控制

BriefGPT - AI 论文速递 ·

该研究使用Google的MusicVAE探究了音乐神经元的编码方式，发现音高和节奏信息编码在最开始的几个神经元中，旋律概念则在较长的序列中出现独立的神经元中。

神经基础音乐生成的智能复制

BriefGPT - AI 论文速递 ·

该文介绍了一种增强预训练文本转音频模型可控性的新模型，通过时间戳、语调曲线和能量曲线等额外条件实现对生成音频的时间顺序、音高和能量的精细控制。作者整合数据集，使用评估指标评估可控性能，实验结果表明该模型成功实现了细粒度控制，实现了可控的音频生成。

CoCoFormer: 一种可控的功能丰富的多音乐生成方法

BriefGPT - AI 论文速递 ·

本文介绍了微调技术，用于提高自动语音识别系统对非标准语音的识别准确性，特别是针对肌萎缩侧索硬化症患者的言语和带口音的言语。通过训练个性化模型，相对于标准语音，相对词错误率能提高62％和35％，仅五分钟的训练就能带来71％的提升。微调部分层的结果往往比微调整个模型更好，是构建肌无力性言语最先进的自动语音识别模型的第一步。