研究人员利用AV1视频编码中的运动矢量提升光流估计的效率与准确性。通过与真实数据对比,验证了其保真度,并发现将这些矢量作为深度学习算法RAFT的起点,可以将处理速度提高四倍,且精度影响最小。这为实时运动感知应用开辟了新可能。
本研究针对视频生成模型在遵循物理法则方面普遍存在的不足,提出了一种新的基准——PhyCoBench。该基准涵盖120个提示,涉及7类物理原理,评估生成视频的物理一致性。此外,我们还提出了PhyCoPredictor自动评估模型,实验结果表明其与人工评估的一致性最高,能够有效提升视频生成模型的优化方向。
本研究提出了一种基于残差的光流估计方法,有效解决了事件摄像头在高时间分辨率下运动估计的数据稀疏性问题,显著提高了准确性。
本研究改进了光流处理中的凸上采样方法,提出了解耦加权和上下文特征引入,开发了基于局部注意力的上采样器,实验结果表明这些改进提升了光流模型的精度。
本研究探讨了扩散模型在生成和视觉感知任务中的应用,提出了一种将深度估计、光流和分割统一为图像转换的高效训练技术。结果表明,该模型在数据和计算资源较少的情况下,性能与先进方法相当。
本研究提出了多种基于深度学习的显微成像重建方法,有效解决了各向异性分辨率问题。通过卷积神经网络、条件归一化流和扩散模型等技术,显著提升了3D重建质量,适用于生物医学研究和临床诊断。
本文介绍了一种基于深度学习的人体姿势估计算法,结合光流和时间序列信息,提升了多个数据集上的性能。研究提出了UniPose、AdaFuse和GateAttentionPose等方法,分别针对遮挡、三维姿态估计和计算效率进行了优化,均在相关数据集上取得了优异结果。
本文介绍了多种光流估计方法,如密集对应场、卷积网络和静态语义场景分割,旨在提高光流估计的准确性和鲁棒性。研究表明,采用新模型和数据集,尤其在复杂场景中,能够显著提升光流估计性能,特别是在小物体的识别和运动预测方面。
本文介绍了多种光流估计的新方法,如密集对应场方法、GMFlow框架和MeFlow,强调了自监督学习和注意力机制的应用。这些技术在多个数据集上表现优异,显著提高了光流估计的准确性和效率,同时降低了内存和时间成本。
本研究探讨了光流算法在人体动作识别中的应用,提出了一种基于深度学习的新方法来估计3D面部表情,强调了光流算法的精细调整对识别性能的提升。同时,研究介绍了面部情感微表情识别和面部交换框架FlowFace的创新,展示了其在多个数据库上的优越表现。
本研究解决了高分辨率图像下光流方法在内存消耗和计算效率方面的困难。提出了一种新颖的混合成本体积(HCV)策略,通过将4D成本体积分离为两个全局3D成本体积,显著减少内存使用,同时保留大量匹配信息。实验表明,基于HCV的光流网络在内存消耗和准确性方面均优于现有方法,具有良好的实用性和推广潜力。
本研究针对事件相机在快速运动或复杂光照条件下光流估计的需求,提出了SDformerFlow和STTFlowNet两种新的解决方案,利用时空窗口自注意力变换器和全脉冲神经网络架构。该研究首次应用脉冲变换器于光流估计,结果显示其在DSEC和MVSEC数据集上具有优越性能和显著减少的能耗。
本文介绍了一系列基于学习的运动信号分割方法,利用光流和事件相机技术实现独立运动目标的分割和运动参数估计。研究表明,新的视频实例分割方法通过融合多种线索,能够在复杂场景中实时跟踪实例,准确度高达90%。此外,提出的半监督框架在降低计算复杂度的同时,性能与完全监督方法相当,展示了在多目标跟踪中的有效性。
本文介绍了一系列运动分割和跟踪算法,包括基于光流和神经网络的方法。这些算法通过聚类像素、无监督学习和优化动态场景,提升了复杂背景下的运动分割性能。研究表明,这些新算法在多个数据集上表现优异,尤其在动态和非线性运动模式的场景中。
本文提出了一种高效的光流方法,通过轻量的主干网络和快速细化模块实现实时高精度光流估计。模型在保证准确性的同时,速度提升10到70倍,能够在Jetson Orin Nano上以超过20帧每秒的速度处理图像。
本文提出了一种从自动驾驶车辆的稀疏激光雷达数据中估计密集光流的新方法,用于替代基于图像的光流系统。该方法使用多尺度滤波器的三级结构来推断高分辨率2D流,并在lidar和图像域中结合多个中间目标。通过使用FlowNet2计算的假伪基于图像的光流,我们使用包含约20K lidar样本的Kitti数据集训练网络。在Kitti数据集上演示了我们方法的有效性,表明尽管使用低分辨率和稀疏的lidar测量,我们可以回归与基于图像的方法相当的密集光流图。
本文介绍了基于事件相机的快速线性和连续时间非线性求解器,用于从视觉数据中恢复相机运动和场景几何。研究表明这些方法在准确性和效率方面具有优势,并展示了连续时间非线性求解器在适应运动突变方面的能力。
ReLaX-VQA是一种用于无参考视频质量评估的模型,通过分析视频片段的残差帧、光流和采样帧的空间特征表达,并利用深度神经网络中的层叠技术来增强其抽象能力。在四个UGC数据集上进行了广泛测试,结果显示ReLaX-VQA在NR-VQA方法中表现优越,平均SRCC值为0.8658,PLCC值为0.8872。该模型的开源代码和训练模型也已提供,以促进进一步的研究和应用。
本文提出了一种自监督学习框架,用于从视频中估算对象的运动和深度,并建模为六个自由度刚体变换。该方法使用实例分割掩码引入对象信息,并通过引入几何约束损失项消除运动预测的尺度歧义。实验结果表明,该框架在处理数据时不需要外部注释,并能够捕捉对象的运动。与自监督研究方法相比,在3D场景流预测和动态区域的视差预测方面表现更好。
本文研究了卷积神经网络在无监督学习下学习光流预测的能力,并提出了一种新的模型来显式模拟遮挡问题。通过新颖的变换方式,该方法能更好地学习大运动。在Flying Chairs,MPI-Sintel和KITTI标准数据集上的测试结果表明,无监督方法在KITTI数据集上的效果优于有监督方法,尤其在该数据集上,我们的方法表现出色。
完成下面两步后,将自动完成登录并继续当前操作。