本研究提出ChordFormer,结合卷积神经网络与变换器,解决大词汇量音频和弦识别中的样本不足问题,提升了2%的帧级和6%的类别级准确率。
本研究解决了联合训练和修剪过程中有效参数减少的问题,提出了一种基于自适应 dropout 层的修剪方法。该方法通过估计单元保留概率,识别出可被修剪的单元,并在 Conformer 的多个应用点进行了有效应用。研究结果显示,该方法在减少54%参数的同时,使识别精度提高约1%。
我们提出了一种端到端的多通道说话人归属自动语音识别系统(MC-SA-ASR),结合了Conformer编码器和Transformer解码器。该系统在LibriSpeech数据集上实现了12%至16%的词错误率降低,并在AMI语料库中验证了其在真实会议转录中的有效性。
研究表明,通过预训练、自我训练和扩大模型规模,巨型ASR模型在少量标记数据下可实现先进性能。在34k小时的任务中,微调80亿参数的Conformer模型,仅用3%的数据达到先进水平。完整训练集提升性能,并在多个语音领域取得优异结果。
该研究提出了一种新颖的方法,通过人工和自回归模型共同创建音频音轨的和声标注。研究者在自动产生和声预测后,人工稀疏地注释低模型置信度的部分,并根据人工指导调整模型的预测。研究者在流行音乐数据集上评估了该模型,并展示了人工参与的提升效果。
本论文提出了一种名为Conformer的混合网络结构,利用卷积操作和self-attention机制进行增强表示学习。实验证明,Conformer在ImageNet上优于visual transformer(DeiT-B)2.3%,在MSCOCO上在目标检测和实例分割方面都优于ResNet-101,具有成为通用主干网络的潜力。
This paper was accepted at the Industry Track at NAACL 2024. With increasingly more powerful compute capabilities and resources in today’s devices, traditionally compute-intensive automatic speech...
我们引入了一种多任务Transformer模型CSLR2,可以在手语序列和口语文本之间输出联合嵌入空间,实现大词汇连续手语识别和手语检索。通过构建新的数据集注释,证明了同时训练模型进行CSLR和检索任务在性能上互相有益。利用BOBSL和英文字幕等大词汇数据集中的弱监督和嘈杂监督,我们的模型在两个任务上明显优于以往的最先进技术。
本论文介绍了一种名为Conformer的混合网络结构,利用卷积操作和self-attention机制进行增强表示学习。实验证明,Conformer在ImageNet上优于visual transformer(DeiT-B)2.3%,在MSCOCO上,在目标检测和实例分割方面都优于ResNet-101,具有成为通用主干网络的潜力。
该研究提出了一种使用关键帧的自注意力机制和下采样机制的方法,能够降低Conformer模型中自注意力机制的计算复杂度,并取得与基准模型相当或更高的性能。同时,该方法可以丢弃超过60%的无用帧,从而显著加速推断速度。
本文提出了一种紧凑的低维度特征表示方法,通过注意力池化层优化了ASR系统,实验结果表明在1000小时的语音语料上实现了显著降低的绝对词错误率。
本文介绍了一种名为HM-Conformer的音频深度伪造检测方法,采用分层池化和多级分类令牌聚合方法,能够有效地检测欺骗证据。在ASVspoof 2021 Deepfake数据集上的实验结果表明,HM-Conformer的等错误率为15.71%,表现竞争性能。
完成下面两步后,将自动完成登录并继续当前操作。