小红花·文摘

DBF是一种视频多模态融合去噪模型，使用瓶颈机制过滤噪声和冗余信息，并采用互信息最大化模块来调节过滤器以保留关键信息。实验表明，该模型在多个基准测试中都有显著的改进效果，可以有效地从嘈杂和冗余的视频、音频和文本输入中捕捉到显著特征。