小红花·文摘 - 小红花技术领袖俱乐部

本研究提出了一种无训练的视频动作定位方法VideoGEM，利用预训练的图像和视频语言模型，通过动态调整层权重，分别处理动作、动词和对象提示，显著提高了动作定位精度，超越了现有最佳方法。

VideoGEM: Training-free Action Localization in Videos

BriefGPT - AI 论文速递 ·

本文提出了一种基于混合网络的面部动作单元检测方法，解决了面部表情解码中的空间表示、时间建模和AU相关性问题。研究还介绍了多模态感知跟踪器和基于融合的未剪辑视频动作定位方法，均在多个数据集上取得了显著的性能提升，证明了其在复杂条件下的鲁棒性。

AUD-TGN: Advancing Action Unit Detection in Wild Audio-Visual Environments Using Temporal Convolution and GPT-2

BriefGPT - AI 论文速递 ·