💡
原文中文,约700字,阅读约需2分钟。
📝
内容提要
I3D是一种视频理解模型,采用双流网络架构,将2D网络扩展为3D网络。文章介绍了Kinetics数据集,包含400种人体动作,每种动作有400多个来自YouTube的视频示例。模型整体架构基于Inception-v1,后期改用ResNet以提升性能。
🎯
关键要点
- I3D是一种视频理解模型,采用双流网络架构。
- 模型的核心贡献是将2D网络膨胀为3D网络。
- Kinetics数据集包含400种人体动作,每种动作有400多个来自YouTube的视频示例。
- 模型最初基于Inception-v1架构,后期改用ResNet以提升性能。
🏷️
标签
➡️