本研究提出了BlockDance方法,旨在提高扩散变换器的推理速度。通过重用相邻时间步的相似时空特征,BlockDance在保持生成质量的同时,实现了25%至50%的加速效果。
本文提出MASH-VLM,旨在解决视频大语言模型中的动作场景幻觉问题。通过引入DST-attention机制和Harmonic-RoPE,研究有效解耦时空特征,优化位置嵌入,减少错误预测。实验结果表明,MASH-VLM在基准测试中表现优异,具有良好的应用潜力。
本研究探讨了深度神经网络在视频理解中的应用,分析了视频的时空特征,并回顾了视频理解模型的发展趋势及结构设计,旨在推动该领域的进步。
本研究提出了一种基于多模态大型语言模型的端到端视频推理分割方法(VRS-HQ),有效解决了现有方法的空间复杂性和运动捕捉不足的问题。VRS-HQ在ReVOS上表现优异,超越VISA,展现出强大的时空特征表示能力。
本文介绍了多种基于LiDAR数据的深度学习模型,如MotionNet、MultiXNet和MoNet,旨在提升自动驾驶中的感知和运动预测能力。这些模型通过提取时空特征和多视图学习,显著提高了运动预测性能,展示了在实际应用中的重要前景。
本文介绍了一种基于多尺度变换器的手术视频阶段识别方法,通过时空特征联合学习显著提高识别准确率。在Cholec80数据集上验证,该方法在线和离线识别准确率分别达到95.26%和96.15%。提出的自回归手术变压器(ARST)和STAR-Net模型在手术阶段识别中表现优异,展示了在医疗视频分析中的应用潜力。
本文提出了多种基于图神经网络的交通流预测模型,如混合时变图神经网络和多邻接关系注意力图卷积网络。这些模型通过融合时空特征和外部因素,显著提高了预测准确性,尤其在施工区域和蜂窝网络流量预测中表现优异,显示出图神经网络在智能交通系统中的广泛应用潜力。
该论文介绍了多种视频超分辨率算法,包括3DSRnet、FSTRN和基于时间调制网络的方法。这些算法通过利用时空特征和创新的网络架构,提高了低分辨率视频的空间和时间分辨率,并在计算效率和准确性上优于现有技术。
本文提出了一种轻量级视频异常检测模型,结合自适应实例选择和多级时间相关注意力模块,提升了性能,适用于资源受限环境。研究还介绍了基于深度神经网络的弱监督框架,通过视频级标签和时空特征生成伪标签,减少噪声,实现更准确的异常检测。实验结果表明,该方法在多个数据集上表现优异。
本文介绍了GazeMoDiff、Motion-Zero和MoDiff等新型运动生成模型,旨在提高视频中人体动作的预测和控制精度。这些模型结合时空特征、注意力机制和无监督学习,生成高质量、自然的运动序列,适用于虚拟现实和视频编辑任务。
研究者提出了一种基于动态领域自适应的深度学习网络(DADL-Net),用于处理脑电数据。该网络通过3D卷积模块将数据映射到三维几何空间,并学习其时空特征。通过引入最大均值差异损失函数和微调目标域数据,解决了脑机接口中的相关性和个体差异问题。在BCI竞赛IV 2a和OpenBMI数据集上验证了该方法的性能,准确率分别为70.42%和73.91%。
该研究提出了一种利用迁移学习和时空特征的比特率阶梯预测方法,能够在保持高质量视频的同时减少编码复杂度。测试结果表明,相对于暴力搜索方法,编码复杂度减少了94.1%,BD-Rate费用仅为1.71%。同时,还对迁移学习进行了深入研究。
该文介绍了一种基于动态领域自适应的深度学习网络(DADL-Net),通过3D卷积模块将脑电数据映射到三维几何空间,并学习其时空特征,利用空间通道注意机制加强特征,最终通过卷积模块进一步学习特征的时空信息。该方法在BCI竞赛IV 2a和OpenBMI数据集上验证,准确率分别达到70.42%和73.91%。
该研究使用DenseNet-3D将EEG通道转化为三维排列,并提取时空特征,以94.4%的解码精度超越最先进方法。代码可在GitHub上获取。
完成下面两步后,将自动完成登录并继续当前操作。