本研究提出了一种时间动态上下文(TDC)编码方法,旨在解决长视频处理中的信息损失问题。通过语义一致性场景分割和基于查询的Transformer,有效整合视频、音频和文本信息,实验结果表明其在视频理解方面表现优异。
完成下面两步后,将自动完成登录并继续当前操作。