本研究提出了过去令牌预测(PTP)作为辅助任务,以解决从演示中学习长上下文策略的挑战。该方法显著提升了时间建模能力和策略训练效率,使长上下文扩散策略的性能提高了3倍,训练速度加快超过10倍。
本研究提出了一种新型多流方法MD-BERT,用于在昏暗或低光视频中进行动作识别。通过动态特征融合和时间建模,MD-BERT有效捕捉上下文信息,性能优于现有方法,建立了新的技术基准。
本研究提出了一种新方法,解决了现有引用视频对象分割(RVOS)在短视频中信息损失的问题。通过引入自然语言理解和时间建模,增强了Segment-Anything 2(SAM2)模型的能力,实现了更有效的流式场景跟踪,并在多个基准测试中取得了优异的结果。
完成下面两步后,将自动完成登录并继续当前操作。