PosMLP-Video:高效视频识别的时空相对位置编码
原文中文,约300字,阅读约需1分钟。发表于: 。PosMLP-Video 是一种轻量但强大的 MLP-like 视频识别主干,通过使用高效的相对位置编码(RPE)构建配对令牌关系来解决图像理解任务中的显着挑战,扩展了图像 PosMLP 的位置门控单元到三种时空变种,能够实现计算模型简化且性能保持良好,并通过使用通道分组来丰富相对位置关系。
PosMLP-Video是一种轻量但强大的视频识别主干,通过使用高效的相对位置编码(RPE)解决图像理解任务中的挑战,扩展了图像PosMLP的位置门控单元到三种时空变种,实现模型简化且性能保持良好。