小红花·文摘

本文介绍了一种新颖的音视频语音分离方法：递归时频分离网络（RTFS-Net）。该方法利用算法对音频的时间和频率进行建模，并引入了基于注意力的融合技术，以整合音频和视觉信息。RTFS-Net 在参数和计算量方面都比先前的方法更优秀，是首个在时频域中超越所有当代时域对应方法的音视频语音分离方法。