该论文提出了一种新的上下文多模态对齐(CAD)网络,通过引入无参数随机上下文块来确保空间级别上的稳健音频和视觉对齐,提出了一种用于动态音频和视觉对齐的预训练技术,以及引入了交叉注意机制来平衡语义级别上的音频和视觉信息。该 CAD 网络相对于现有方法平均性能提高了 9.4%,并且将该建议添加到现有方法中可以提高其性能,而不需要额外的复杂性要求。
完成下面两步后,将自动完成登录并继续当前操作。