运动到语言：无监督学习的同步语义运动分割

本研究致力于构建一种序列到序列的架构，用于实现动作到语言的翻译和同步。我们提出了一种适用于同步 / 实时文本生成的新的局部注意力的递归表达形式，以及一种更适用于较小数据和同步生成的改进动作编码器架构。通过在 KIT 运动语言数据集上的实验证明，这两个因素都增加了生成文本质量和同步质量。

本文提出了一个基于全面时间戳监督设置的 seq2seq 翻译的统一框架，用于解决视频动作分割问题。框架通过引入辅助监督信号和独立的对齐解码器，以及针对标准 Transformer seq2seq 翻译模型的模块化方法，能够应对长输入序列和相对较少的视频输出序列。通过有限 k-medoid 算法将框架扩展到基于时间戳的监督设置，用于生成伪分割。该框架在完全和时间戳监督设置中表现一致，胜过或与几个数据集上的最先进算法相竞争。

k-medoid算法 seq2seq 对齐解码器视频动作分割辅助监督信号