MTGA: 多视角时间粒度对齐聚合在基于事件的唇读中的应用

💡 原文中文,约200字,阅读约需1分钟。
📝

内容提要

本文提出了一种多粒度时间聚合框架,利用最大池化和注意力技术实现了下一步行动和密集预测,并在多个数据集上取得了最新的实验结果。

🎯

关键要点

  • 提出了一种灵活的多粒度时间聚合框架。
  • 使用最大池化和注意力技术实现下一步行动和密集预测。
  • 在Breakfast、50Salads和EPIC-Kitchens数据集上取得了最新的实验结果。
  • 该框架兼容视频分割和动作识别。
➡️

继续阅读