小红花·文摘

PAM（Perceive Anything Model）模型通过3B参数实现图像和视频的分割、识别与描述，支持多种输出，且数据已开源。该模型在多个基准测试中表现优异，具备高效推理和轻量化特点，适用于AR/VR等场景。

分割/识别/解说一个模型搞定！3B参数刷新视觉理解SOTA，图像视频全适配

量子位 ·

本研究提出了一种新方法VFAT-WS，旨在提高视频识别中的对抗训练效率和鲁棒性，通过时间频率增强和一致性正则化，训练速度提升近490%。

Fast Adversarial Training for Video Based on Weak-to-Strong Spatio-Temporal Consistency in the Frequency Domain

BriefGPT - AI 论文速递 ·

SnapPix系统通过传感器内的模拟域压缩，解决了边缘计算中的能量有效图像采集问题。该系统与视觉模型共同设计，显著提升了视频识别和重建性能，能耗降低高达15.4倍。

SnapPix: In-Sensor Compression for Edge Vision Based on Efficient Coding

BriefGPT - AI 论文速递 ·

本研究提出了一种新的视频识别方法Uni-AdaFocus，旨在解决视频理解中的数据冗余问题。该方法整合了时空动态计算，显著提高了计算效率，并在多个基准数据集上超越了现有技术。

Uni-AdaFocus: Spatial-Temporal Dynamic Computation in Video Recognition

BriefGPT - AI 论文速递 ·

本研究利用SlowFast深度神经网络分析行车记录仪中的近失事件，显著提高了交通近失视频的识别准确性，为提升交通安全和理解事故中的认知错误提供了新见解。

Using SlowFast Networks to Analyze Near-Miss Incidents in Dashcam Videos

BriefGPT - AI 论文速递 ·

本文介绍了SlowFast网络在视频识别中的应用，通过结合Slow路径和Fast路径来提高识别精度。同时，研究了SpeedNet模型的自我监督学习、视频加速技术、视频生成模型的优化及Contextualized World Models的引入，显著提升了机器人操作和自动驾驶等领域的样本效率。此外，提出了VSTAR方法以改善长视频生成的动态性，并开发了新数据集LVD-2M以推动长视频生成研究。

SlowFast-VGen：面向动作驱动的长视频生成的慢速-快速学习

BriefGPT - AI 论文速递 ·

本研究探讨了视频生成过程中的先验知识是否适用于视频识别，并提出了GenRec，这是一种将生成与识别联合优化的统一框架。GenRec通过随机帧条件过程实现了显著的表现，在信息有限的情况下，其识别准确率达到75.8%和87.2%，展示了其在视频生成和识别任务中的潜在影响力。

GenRec：使用扩散模型统一视频生成与识别

BriefGPT - AI 论文速递 ·

VideoMamba是一种新型改进的纯Mamba架构，用于视频识别。它利用了Mamba的线性复杂度和选择性SSM机制，实现高效处理。能够捕捉非连续空间和连续时间信息之间的复杂关系，展现出竞争力和卓越的效率。突显了VideoMamba作为视频理解工具的潜力，并为未来视频分析研究提供了简单有效的基准。

DemMamba：基于频率辅助的无对齐原始视频去摩尔纹方法

BriefGPT - AI 论文速递 ·

VideoMamba是一种新型的纯Mamba架构，专为视频识别设计。它利用线性复杂度和选择性SSM机制，实现更高效的处理。VideoMamba能够捕捉非连续空间和连续时间信息之间的复杂关系，展现出竞争力和卓越的效率。它是视频理解的强大工具，为未来视频分析研究提供了一个简单而有效的基准。

PoseMamba：基于双向全局 - 局部时空状态空间模型的单目 3D 人体姿态估计

BriefGPT - AI 论文速递 ·

VideoMamba是一种新型改进的纯Mamba架构，专为视频识别设计。它利用了Mamba的线性复杂度和选择性SSM机制，实现了更高效的处理。VideoMamba能够捕捉非连续空间和连续时间信息之间的复杂关系，展现出竞争力和卓越的效率。这项工作突显了VideoMamba作为视频理解工具的潜力，为未来视频分析研究提供了一个简单而有效的基准。

ST-Mamba：利用有限数据恢复交通流量估计的时空猛菈

BriefGPT - AI 论文速递 ·

PosMLP-Video是一种轻量但强大的视频识别主干，通过使用高效的相对位置编码（RPE）解决图像理解任务中的挑战，扩展了图像PosMLP的位置门控单元到三种时空变种，实现模型简化且性能保持良好。

PosMLP-Video：高效视频识别的时空相对位置编码

BriefGPT - AI 论文速递 ·

本文提出了一种双重注意力块的方法，可提高图像/视频识别性能，在ImageNet-1k数据集和动作识别任务中取得最先进的成果。

双边网络与残差 U 块和双向引导注意力的实时语义分割

BriefGPT - AI 论文速递 ·

本文提出了一种自动重建和交互的3D运动方法，能够估计人和物体的3D姿势、接触位置、力和扭矩，并在输入视频中自动识别出接触位置和时间。该方法在真实数据集和互联网视频数据集中验证了其性能。

基于物理模型的刚体目标跟踪与 RGB-D 视频摩擦滤波

BriefGPT - AI 论文速递 ·

该文介绍了AVGN音视频感知网络，使用划分视频片段、轻量级编码器和音频增强等技术，实现了高效的视频识别。该网络在多个基准测试中取得了最高性能并实现了更快的处理速度。

连续音频 - 视觉学习的增量聚类网络

BriefGPT - AI 论文速递 ·