本研究提出了Helvipad数据集,包含40K帧视频序列,旨在解决全向成像中立体深度估计的数据不足问题。研究表明,现有方法表现尚可,但深度估计的准确性仍需提升。
本文提出了一种新型密集长期追踪模型MFTIQ,显著提升了视频序列中的点级视觉追踪准确性和灵活性,尤其在复杂场景中表现突出。实验结果表明其处理速度快,性能与先进追踪器相当。
本研究构建了大规模高质量真实雨数据集(LHP-Rain),包含3000个视频序列和100万帧高分辨率图像配对数据。研究提出了鲁棒低秩张量恢复模型和基于Transformer的除雨算法,实验证明其在最新研究中的优越性。
本研究提出了一个大规模高分辨率的CeleX-HAR数据集,包含150种常见动作类别和124,625个视频序列。研究还介绍了EVMamba网络,通过编码和挖掘事件流的时空信息,提升了动作识别性能。
本文提出了一种自监督学习方法SelfOcc,通过视频序列学习3D占用情况并优化表示。SelfOcc在深度合成和深度估计方面在多个数据集上取得了最先进的结果。
当前语言模型在理解复杂和长期任务时存在困难。该论文通过联合建模视频序列的时间信息和语言的静态图像,实现了更广泛的人工智能能力。
该文介绍了一种基于多阶段LSTM网络的动作预测方法,能够在视频序列仅有少量片段的情况下实现高准确度的预测。在多个公开数据集上,相对提升了22.0%(JHMDB-21),14.0%(UT-Interaction),和49.9%(UCF-101)的准确率。
完成下面两步后,将自动完成登录并继续当前操作。