PosMLP-Video:高效视频识别的时空相对位置编码

💡 原文中文,约300字,阅读约需1分钟。
📝

内容提要

PosMLP-Video是一种轻量但强大的视频识别主干,通过使用高效的相对位置编码(RPE)解决图像理解任务中的挑战,扩展了图像PosMLP的位置门控单元到三种时空变种,实现模型简化且性能保持良好。

🎯

关键要点

  • PosMLP-Video 是一种轻量但强大的 MLP-like 视频识别主干。
  • 使用高效的相对位置编码(RPE)来解决图像理解任务中的挑战。
  • 扩展了图像 PosMLP 的位置门控单元到三种时空变种。
  • 实现了计算模型的简化且性能保持良好。
  • 通过使用通道分组来丰富相对位置关系。
➡️

继续阅读