运动到语言:无监督学习的同步语义运动分割
💡
原文中文,约400字,阅读约需1分钟。
📝
内容提要
本文提出了一个基于全面时间戳监督设置的 seq2seq 翻译的统一框架,用于解决视频动作分割问题。框架通过引入辅助监督信号和独立的对齐解码器,以及针对标准 Transformer seq2seq 翻译模型的模块化方法,能够应对长输入序列和相对较少的视频输出序列。通过有限 k-medoid 算法将框架扩展到基于时间戳的监督设置,用于生成伪分割。该框架在完全和时间戳监督设置中表现一致,胜过或与几个数据集上的最先进算法相竞争。
🎯
关键要点
-
提出了一个基于序列到序列的统一框架,用于视频动作分割。
-
框架利用全面时间戳监督设置的 seq2seq 翻译。
-
采用映射视频帧序列到动作分段序列的方法解决动作分割问题。
-
引入辅助损失函数和模块化方法,以应对长输入序列和较少的视频输出序列。
-
为编码器引入辅助监督信号,提出独立的对齐解码器用于隐式持续时间预测。
-
通过有限 k-medoid 算法扩展框架到基于时间戳的监督设置,生成伪分割。
-
框架在完全和时间戳监督设置中表现一致,超越或与最先进算法竞争。
🏷️
标签
➡️