小红花·文摘 - 小红花技术领袖俱乐部

该论文介绍了一种新的参数高效的视听变压器 MA-AVT，采用深度模态对齐来实现对应的多模态语义特征的对齐，通过联合单模态和多模态令牌学习，引入冻结的模态共享变压器，使模型能够学习到每种模态的独立表示，并关注它们之间的跨模态关系。此外，在编码阶段引入块对齐性学习以对齐粗粒、细粒的层次特征，并引入鲁棒的判别前景挖掘机制以抑制每种模态中的背景特征。通过在 benchmark...

MA-AVT：用于参数高效音频 - 视觉变换器的模态对齐

BriefGPT - AI 论文速递 ·

AVT是一种基于注意力机制的视频建模架构，通过关注之前观察过的视频来预测未来的动作。AVT在多个动作预测基准测试中表现出最佳性能，并在挑战赛中获得第一名。

HaltingVT: 适用于高效视频识别的自适应停止令牌变换器

BriefGPT - AI 论文速递 ·

AVT是一种基于注意力机制的视频建模架构，能够预测未来的动作。AVT在保持观察到的动作的时序进展的同时捕捉了长时间的依赖性，达到了最佳性能，并在EpicKitchens-100 CVPR'21挑战赛中获得了第一名。

人类中心视频中基于知识引导的短上下文动作预测

BriefGPT - AI 论文速递 ·

AVT是一种基于注意力机制的视频建模架构，能够通过关注之前的视频来预测未来的动作。AVT能够捕捉长时间的依赖性，提高预测性能，并在多个动作预测基准测试中表现最佳。AVT在EpicKitchens-100 CVPR'21挑战赛中获得第一名。

在线行动理解的记忆与预测变换器

BriefGPT - AI 论文速递 ·