小红花·文摘

本文介绍了EgoInstructor模型，旨在通过自动检索第三人称视频来增强第一人称视频的字幕生成。研究表明，该模型在多个基准测试中表现优越。此外，提出了专为自我中心视频设计的EgoVideo基础模型，展示了其在多样化任务中的有效性。同时，介绍了EgoHumans数据集，旨在改进3D姿势估计和跟踪算法，推动第一人称感知的研究。

EgoCVR：细粒度复合视频检索的自我中心基准

BriefGPT - AI 论文速递 ·

EgoInstructor模型通过检索第三人称指导视频来增强第一人称视频的字幕生成，训练跨视角检索模块并使用EgoExoNCE损失函数对齐视频特征，实验证明在七个基准上表现出优越性能，显著改进第一人称视频字幕生成。

检索增强的视觉第一人称视频字幕生成

BriefGPT - AI 论文速递 ·