小红花·文摘

本研究提出了BlockDance方法，旨在提高扩散变换器的推理速度。通过重用相邻时间步的相似时空特征，BlockDance在保持生成质量的同时，实现了25%至50%的加速效果。

BlockDance: Reusing Structurally Similar Spatio-Temporal Features to Accelerate Diffusion Transformers

BriefGPT - AI 论文速递 ·

本文提出MASH-VLM，旨在解决视频大语言模型中的动作场景幻觉问题。通过引入DST-attention机制和Harmonic-RoPE，研究有效解耦时空特征，优化位置嵌入，减少错误预测。实验结果表明，MASH-VLM在基准测试中表现优异，具有良好的应用潜力。

MASH-VLM: Mitigating Action-Scene Hallucination in Video Large Language Models through Disentangled Spatial-Temporal Representations

BriefGPT - AI 论文速递 ·

本研究探讨了深度神经网络在视频理解中的应用，分析了视频的时空特征，并回顾了视频理解模型的发展趋势及结构设计，旨在推动该领域的进步。

Enhancing Video Understanding: Deep Neural Networks for Spatiotemporal Analysis

BriefGPT - AI 论文速递 ·

本研究提出了一种基于多模态大型语言模型的端到端视频推理分割方法（VRS-HQ），有效解决了现有方法的空间复杂性和运动捕捉不足的问题。VRS-HQ在ReVOS上表现优异，超越VISA，展现出强大的时空特征表示能力。

魔鬼在时间标记中：高质量视频推理分割

BriefGPT - AI 论文速递 ·

本文介绍了多种基于LiDAR数据的深度学习模型，如MotionNet、MultiXNet和MoNet，旨在提升自动驾驶中的感知和运动预测能力。这些模型通过提取时空特征和多视图学习，显著提高了运动预测性能，展示了在实际应用中的重要前景。

LiMTR：通过多模态特征集成进行多样化道路用户的时间序列运动预测

BriefGPT - AI 论文速递 ·

本文介绍了一种基于多尺度变换器的手术视频阶段识别方法，通过时空特征联合学习显著提高识别准确率。在Cholec80数据集上验证，该方法在线和离线识别准确率分别达到95.26%和96.15%。提出的自回归手术变压器（ARST）和STAR-Net模型在手术阶段识别中表现优异，展示了在医疗视频分析中的应用潜力。

Surgformer: 手术阶段识别的具有层次时间注意力的手术变压器

BriefGPT - AI 论文速递 ·

本文提出了多种基于图神经网络的交通流预测模型，如混合时变图神经网络和多邻接关系注意力图卷积网络。这些模型通过融合时空特征和外部因素，显著提高了预测准确性，尤其在施工区域和蜂窝网络流量预测中表现优异，显示出图神经网络在智能交通系统中的广泛应用潜力。

在一种符合性图神经网络框架中，利用综合旅行时间和数据可用性进行城市交通预测

BriefGPT - AI 论文速递 ·

该论文介绍了多种视频超分辨率算法，包括3DSRnet、FSTRN和基于时间调制网络的方法。这些算法通过利用时空特征和创新的网络架构，提高了低分辨率视频的空间和时间分辨率，并在计算效率和准确性上优于现有技术。

基于全局时空信息的残差 ConvLSTM 视频时空超分辨率

BriefGPT - AI 论文速递 ·

本文提出了一种轻量级视频异常检测模型，结合自适应实例选择和多级时间相关注意力模块，提升了性能，适用于资源受限环境。研究还介绍了基于深度神经网络的弱监督框架，通过视频级标签和时空特征生成伪标签，减少噪声，实现更准确的异常检测。实验结果表明，该方法在多个数据集上表现优异。

边界框和概率图模型：简化视频异常检测

BriefGPT - AI 论文速递 ·

本文介绍了GazeMoDiff、Motion-Zero和MoDiff等新型运动生成模型，旨在提高视频中人体动作的预测和控制精度。这些模型结合时空特征、注意力机制和无监督学习，生成高质量、自然的运动序列，适用于虚拟现实和视频编辑任务。

猿猴仿效：利用自注意力在运动扩散中实现零样本运动转移

BriefGPT - AI 论文速递 ·

本文提出了一种基于引导注意力机制的短期对象交互预测方法，结合物体检测和时空特征，增强运动和上下文信息。新模型GANO在EGO4D数据集上表现优异，成功预测下一个活跃对象及其未来动作，取得最佳成绩。

短期物体交互预期的可供性和注意力模型

BriefGPT - AI 论文速递 ·

本研究提出了一种稀疏变化卷积长短期记忆（CB-ConvLSTM）模型，专为AR/VR设备的事件驱动眼动追踪设计。该模型利用事件相机的低延迟和稀疏输出，能够高效提取时空特征，算术运算减少约4.7倍，且不损失精度，适合资源受限设备的实时眼动追踪。

MambaPupil: 事件驱动的双向选择性循环模型用于眼动跟踪

BriefGPT - AI 论文速递 ·

本研究提出了一种基于变压器的道路网络增强轨迹恢复框架（RNTrajRec），通过学习道路段嵌入特征和时空特征，优化轨迹恢复性能。实验结果表明，该方法在多个真实数据集上优于现有技术，具有更高的效率和准确性。

RTracker：通过 PN 树结构化存储进行可恢复的跟踪

BriefGPT - AI 论文速递 ·

该研究提出了一种基于运动风格的视频生成模型，利用深度学习算法提高视频检测的鲁棒性和泛化性，旨在解决深度伪造视频检测的挑战。通过时空特征提取和潜在空间编辑，研究展示了在多种数据集上有效检测深度伪造影像的能力。

利用样式潜流进行深度假像检测视频检测的泛化

BriefGPT - AI 论文速递 ·

该研究提出了一种利用迁移学习和时空特征的比特率阶梯预测方法，能够在保持高质量视频的同时减少编码复杂度。测试结果表明，相对于暴力搜索方法，编码复杂度减少了94.1%，BD-Rate费用仅为1.71%。同时，还对迁移学习进行了深入研究。

高效的逐个标题比特率梯度预测的最佳转码分辨率

BriefGPT - AI 论文速递 ·

该文介绍了一种基于动态领域自适应的深度学习网络（DADL-Net），通过3D卷积模块将脑电数据映射到三维几何空间，并学习其时空特征，利用空间通道注意机制加强特征，最终通过卷积模块进一步学习特征的时空信息。该方法在BCI竞赛IV 2a和OpenBMI数据集上验证，准确率分别达到70.42%和73.91%。

基于动态领域适应的深度学习网络用于基于脑电信号的动作意象分类

BriefGPT - AI 论文速递 ·

该研究使用DenseNet-3D将EEG通道转化为三维排列，并提取时空特征，以94.4%的解码精度超越最先进方法。代码可在GitHub上获取。

基于 DenseNet 的使用 EEG 解码听觉空间注意力的方法

BriefGPT - AI 论文速递 ·