RTFS-Net: 循环时间频率建模 有效的音频视觉语音分离
💡
原文中文,约300字,阅读约需1分钟。
📝
内容提要
本文介绍了一种新颖的音视频语音分离方法:递归时频分离网络(RTFS-Net)。该方法利用算法对音频的时间和频率进行建模,并引入了基于注意力的融合技术,以整合音频和视觉信息。RTFS-Net 在参数和计算量方面都比先前的方法更优秀,是首个在时频域中超越所有当代时域对应方法的音视频语音分离方法。
🎯
关键要点
- 提出了一种新颖的音视频语音分离方法:递归时频分离网络 (RTFS-Net)。
- RTFS-Net 通过短时傅里叶变换对音频的时间和频率进行独立建模。
- 引入基于注意力的融合技术,有效整合音频和视觉信息。
- 利用声学特征的固有谱特性实现更清晰的分离。
- RTFS-Net 在参数和计算量上优于先前的最先进方法,仅使用 10% 的参数和 18% 的 MAC。
- 这是首个在时频域中超越所有当代时域对应方法的音视频语音分离方法。
➡️