PosMLP-Video:高效视频识别的时空相对位置编码
💡
原文中文,约300字,阅读约需1分钟。
📝
内容提要
PosMLP-Video是一种轻量但强大的视频识别主干,通过使用高效的相对位置编码(RPE)解决图像理解任务中的挑战,扩展了图像PosMLP的位置门控单元到三种时空变种,实现模型简化且性能保持良好。
🎯
关键要点
- PosMLP-Video 是一种轻量但强大的 MLP-like 视频识别主干。
- 使用高效的相对位置编码(RPE)来解决图像理解任务中的挑战。
- 扩展了图像 PosMLP 的位置门控单元到三种时空变种。
- 实现了计算模型的简化且性能保持良好。
- 通过使用通道分组来丰富相对位置关系。
🏷️
标签
➡️