小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI

该论文介绍了一种新的参数高效的视听变压器 MA-AVT,采用深度模态对齐来实现对应的多模态语义特征的对齐,通过联合单模态和多模态令牌学习,引入冻结的模态共享变压器,使模型能够学习到每种模态的独立表示,并关注它们之间的跨模态关系。此外,在编码阶段引入块对齐性学习以对齐粗粒、细粒的层次特征,并引入鲁棒的判别前景挖掘机制以抑制每种模态中的背景特征。通过在 benchmark...

MA-AVT:用于参数高效音频 - 视觉变换器的模态对齐

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-06-07T00:00:00Z

AVT是一种基于注意力机制的视频建模架构,通过关注之前观察过的视频来预测未来的动作。AVT在多个动作预测基准测试中表现出最佳性能,并在挑战赛中获得第一名。

HaltingVT: 适用于高效视频识别的自适应停止令牌变换器

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-01-10T00:00:00Z

AVT是一种基于注意力机制的视频建模架构,能够预测未来的动作。AVT在保持观察到的动作的时序进展的同时捕捉了长时间的依赖性,达到了最佳性能,并在EpicKitchens-100 CVPR'21挑战赛中获得了第一名。

人类中心视频中基于知识引导的短上下文动作预测

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2023-09-12T00:00:00Z

AVT是一种基于注意力机制的视频建模架构,能够通过关注之前的视频来预测未来的动作。AVT能够捕捉长时间的依赖性,提高预测性能,并在多个动作预测基准测试中表现最佳。AVT在EpicKitchens-100 CVPR'21挑战赛中获得第一名。

在线行动理解的记忆与预测变换器

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2023-08-15T00:00:00Z
  • <<
  • <
  • 1 (current)
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码