小红花·文摘

本文研究短期对象交互预测（STA），提出了多模态端到端变压器网络NAOGAT。该模型通过处理观察到的帧，预测下一个活跃对象及其未来动作，结合注意力机制和时空特征，在EGO4D数据集上显著提高了预测准确性。此外，研究引入了环境适应性模型和交互热点预测模块，增强了预测的可信度。

使用解耦的目标检测实现短期物体交互预测 @ Ego4D 短期物体交互预测挑战

BriefGPT - AI 论文速递 ·

通过 STAformer 模型，结合基于注意力的架构、时间池化、图像 - 视频注意力以及多尺度特征融合等方法，可以从图像输入视频对中预测短期物体交互的位置、名词和动词类别，以及与观察到的双眼视角视频相关的接触时间。此外，通过模拟适应性，提供两个新模块来支持 STA 预测，分别是对物体运动轨迹和手部观察的交互热点预测，并在热点周围提高 STA 预测的可信度。

ZARRIO @ Ego4D 短期物体交互预测挑战：利用功能性和基于注意力的模型进行 STA

BriefGPT - AI 论文速递 ·

本文介绍了InternVideo模型在Ego4D挑战中的出色表现，涵盖目标检测和手部动作预测等自我中心视频任务。该模型在多个任务中超越基线方法，展现了强大的表示能力。Ego4D数据集提供了丰富的日常活动视频，推动了第一人称视觉理解的研究。

EgoVideo: 探索自我中心的基础模型和下游适应

BriefGPT - AI 论文速递 ·

本文介绍了多种深度学习模型在社交互动和视频理解中的应用，包括LAEO-Net用于检测相互凝视、InternVideo在Ego4D任务中的表现、半孪生卷积神经网络解决视频人物对应问题，以及基于鸟瞰视角的社交互动识别算法。这些模型在社交关系分析和视频理解方面表现出显著的性能提升。

Ego4D Looking At Me Challenge 的 PCIE_LAM 解决方案

BriefGPT - AI 论文速递 ·

该研究基于Ego4D数据集，提出了多种目标检测与跟踪的新方法，包括VQL框架、EasyLabel工具和PCL方法，显著提高了精度和效率。同时，研究介绍了视觉查询检测任务和大规模的自我中心数据集，推动了机器人视觉和手物交互的应用。

BioVL-QR：使用微型 QR 码的以自我的生化视频与语言数据集

BriefGPT - AI 论文速递 ·

本文介绍了基于Ego4D的RefEgo数据集，包含12k个视频剪辑和41小时的引用表达理解批注。通过结合最先进的2D引用表达理解模型和对象跟踪算法，实现了困难条件下的视频对象跟踪。

RefEgo: 第一人称自我感知的指称表达理解数据集

BriefGPT - AI 论文速递 ·

本技术报告提出了一种基于引导注意力机制的解决方案来解决EGO4D短期预测挑战。该解决方案结合了物体检测和时空特征提取，增强了运动和上下文信息，并解码物体中心和运动中心的信息。在快速网络上应用引导关注力，构建了模型，在验证集和测试集上获得了更好的性能和最佳成绩。

利用下一个活跃对象进行自我中心视频中的上下文感知预测

BriefGPT - AI 论文速递 ·