小红花·文摘

ChordFormer是一种基于Conformer架构的音频和弦识别方法，旨在解决训练样本不足的问题。该方法结合卷积神经网络和变换器，提升了对局部模式和全局依赖的捕捉能力，在大规模和弦数据集上实现了2%的帧级准确率和6%的类别级准确率的提升。

ChordFormer: A Conformer-Based Method for Large-Vocabulary Audio Chord Recognition

BriefGPT - AI 论文速递 ·

本研究解决了联合训练和修剪过程中有效参数减少的问题，提出了一种基于自适应 dropout 层的修剪方法。该方法通过估计单元保留概率，识别出可被修剪的单元，并在 Conformer 的多个应用点进行了有效应用。研究结果显示，该方法在减少54%参数的同时，使识别精度提高约1%。

自适应 dropout 在收缩 Conformer 中的应用

BriefGPT - AI 论文速递 ·

本文提出了一种端到端的多通道说话人归属自动语音识别系统（MC-SA-ASR），结合了Conformer编码器和Transformer解码器。在LibriSpeech数据集上，该系统的词错误率比其他方法降低了12%至16%。研究还探讨了不同输入特征对ASR性能的影响，并在AMI语料库中验证了其在真实多通道会议转录中的有效性。

多通道神经转录器的自监督学习

BriefGPT - AI 论文速递 ·

本文探讨了神经网络和数据驱动方法在音乐配准和歌词对齐中的应用，研究表明这些方法能有效提升音乐演奏与乐谱的同步对齐，适用于音乐教育和自动伴奏。通过改进算法和模型，实现了高准确度的歌词对齐和音频与乐谱的匹配，展示了多模态神经网络的潜力。

ChordSync：将和弦注释与音乐音频进行 Conformer 对齐

BriefGPT - AI 论文速递 ·

基于Conformer的极端边缘计算设备上的语音识别

Apple Machine Learning Research ·

本文介绍了一种基于混合CTC/注意力模型的ResNet-18和Conformer，显著提升了语音识别的准确性。通过引入AdaptSign和CSLR2模型，在连续手语识别和手语检索中取得了优异表现，并利用多语种手语数据集提升识别能力。此外，Conformer模型在LibriSpeech基准测试中超越传统模型，展示了在语音识别和分离任务中的潜力。

基于自适应的 Conformer 的连续手语识别与无监督预训练

BriefGPT - AI 论文速递 ·

本文提出了一种基于关键帧的自注意力机制和下采样机制的方法，显著降低了Conformer模型的计算复杂度并提高了性能。该方法在训练和推断中可丢弃超过60%的无用帧，加速推断速度。实验结果表明，该架构在LibriSpeech数据集上优于传统Conformer，具有更快的速度和更少的参数。

Skipformer: 一种高效语音识别的跳过与恢复策略

BriefGPT - AI 论文速递 ·

本论文介绍了一种名为Conformer的混合网络结构，利用卷积操作和self-attention机制进行增强表示学习。实验证明，Conformer在ImageNet上优于visual transformer（DeiT-B）2.3％，在MSCOCO上，在目标检测和实例分割方面都优于ResNet-101，具有成为通用主干网络的潜力。

LGFCTR: 图像匹配的局部和全局特征卷积变换器

BriefGPT - AI 论文速递 ·

该研究提出了一种使用关键帧的自注意力机制和下采样机制的方法，能够降低Conformer模型中自注意力机制的计算复杂度，并取得与基准模型相当或更高的性能。同时，该方法可以丢弃超过60%的无用帧，从而显著加速推断速度。

高效基于 Conformer 的端到端语音识别关键帧机制

BriefGPT - AI 论文速递 ·

本文提出了一种紧凑的低维度特征表示方法，通过注意力池化层优化了ASR系统，实验结果表明在1000小时的语音语料上实现了显著降低的绝对词错误率。

增强记忆的 Conformer 模型用于改进端到端长篇音频转文字识别

BriefGPT - AI 论文速递 ·

本文介绍了一种名为HM-Conformer的音频深度伪造检测方法，采用分层池化和多级分类令牌聚合方法，能够有效地检测欺骗证据。在ASVspoof 2021 Deepfake数据集上的实验结果表明，HM-Conformer的等错误率为15.71％，表现竞争性能。

HM-Conformer: 带有分层汇聚和多级分类令牌聚合方法的基于 Conformer 的音频深度伪造检测系统

BriefGPT - AI 论文速递 ·