序列到序列多模态语音修复
原文中文,约200字,阅读约需1分钟。发表于: 。该研究提出了一种新颖的序列到序列模型,通过编码器 - 解码器架构的方式利用视觉信息来修复音频信号,证明了多模态方法在语音修复中的有效性。
本文提出了基于Transformer的深度学习模型解决音频视觉语音修复问题,实验结果显示该模型优于之前的音频-视觉模型和音频模型。使用AV-HuBERT提取的视觉特征可合成语音。
该研究提出了一种新颖的序列到序列模型,通过编码器 - 解码器架构的方式利用视觉信息来修复音频信号,证明了多模态方法在语音修复中的有效性。
本文提出了基于Transformer的深度学习模型解决音频视觉语音修复问题,实验结果显示该模型优于之前的音频-视觉模型和音频模型。使用AV-HuBERT提取的视觉特征可合成语音。