RTFS-Net: 循环时间频率建模 有效的音频视觉语音分离
原文中文,约300字,阅读约需1分钟。发表于: 。本文提出了一种新颖的基于时频域的音视频语音分离方法:递归时频分离网络 (RTFS-Net),通过在短时傅里叶变换产生的复杂时频区间上运用算法来独立地对音频的时间和频率进行建模,并引入了独特的基于注意力的融合技术,以有效地整合音频和视觉信息,并利用声学特征的固有谱特性进行更清晰的分离。RTFS-Net 在仅使用 10% 的参数和 18% 的 MAC...
本文介绍了一种新颖的音视频语音分离方法:递归时频分离网络(RTFS-Net)。该方法利用算法对音频的时间和频率进行建模,并引入了基于注意力的融合技术,以整合音频和视觉信息。RTFS-Net 在参数和计算量方面都比先前的方法更优秀,是首个在时频域中超越所有当代时域对应方法的音视频语音分离方法。