本研究提出了一种基于变换器的深度伪造视频检测框架,通过利用运动信息中的方向性不一致模式来提升检测的普适性,并引入时空不变损失以防止过拟合。实验结果表明该方法有效且具有先进性能。
本文介绍了一种新的视频生成框架VideoControlNet,利用运动信息提升视频内容一致性。Motion-Zero框架改善了移动物体的稳定性和准确性,Direct-a-Video允许用户控制对象和相机运动。Ctrl-Adapter增强了视频控制的多样性,COMD模型实现了灵活的摄像机运动转移。CamTrol方法通过三维点云空间建模,实现了对视频摄像机运动的稳健控制。EasyControl框架则通过条件适配器提升视频生成的控制能力。
MotionClone是一个新框架,可以提取参考视频的运动信息,并生成具有定制化运动的文本生成视频。它无需训练或微调,具有更高的运动质量和空间位置关系。通过主成分时序注意力运动指导和空间语义修正,实现了高质量的可控视频生成。
本文研究了动态视觉刺激生成,提出了多种模型,如Spaciotemporal Style Transfer和TeCoS-LVM,以模拟人脑对视觉刺激的反应。研究强调动态刺激对人类视觉的影响,并展示了如何解耦静态与运动表征。通过fMRI数据,验证了运动信息的预测能力,并提出基于空间-时间变换器的神经网络,提升了动态场景图生成的性能,为理解人脑处理动态视觉信息提供了新框架。
本文介绍了一种新型视频预测模型,基于残差更新规则,能够有效处理复杂数据集并显著提升预测性能。该模型通过分解视频的运动和内容信息,增强了表达能力和随机性学习能力,能够在长时间范围内生成复杂场景结构和运动,预测效果优于现有方法。
本文介绍了一种新的方法,利用纹理和运动信息作为监督信号,将 RGB 训练的水域分割网络适用于航空热成像。该方法使得自主航空机器人能够在夜间执行导航、测量和跟踪任务。作者整理了第一个临近海域热成像航空数据集,并证明了该方法的优势。代码和数据集可在指定链接上获取。
该文介绍了一种基于事件相机的无监督学习框架,通过事件流中的运动信息来学习运动。使用该框架训练了两个网络,一个用于预测光流,另一个用于预测自运动和深度。
完成下面两步后,将自动完成登录并继续当前操作。