小红花·文摘

通过 STAformer 模型，结合基于注意力的架构、时间池化、图像 - 视频注意力以及多尺度特征融合等方法，可以从图像输入视频对中预测短期物体交互的位置、名词和动词类别，以及与观察到的双眼视角视频相关的接触时间。此外，通过模拟适应性，提供两个新模块来支持 STA 预测，分别是对物体运动轨迹和手部观察的交互热点预测，并在热点周围提高 STA 预测的可信度。

ZARRIO @ Ego4D 短期物体交互预测挑战：利用功能性和基于注意力的模型进行 STA

BriefGPT - AI 论文速递 ·

本文介绍了一种名为STA的双流注意力网络，用于视频问答。该网络能够识别视频中的长时空结构和文本特征，并将视觉和文本信息融合，提供准确答案。在TGIF-QA数据集上的实验结果显示，STA在Action、Trans、TrameQA和Count任务上表现最佳，分别提高了13.0%、13.5%、11.0%和0.3%。此外，在Action、Trans和TrameQA任务上，STA的表现也比竞争对手提高了4.1%、4.7%和5.1%。

音频 - 视觉问答的渐进时空感知

BriefGPT - AI 论文速递 ·