小红花·文摘

该研究提出了TimeChat，一种针对长视频理解的时态敏感多模态大型语言模型。通过时间感知帧编码器和滑动视频Q-Former两个关键架构贡献，TimeChat具备作为长视频理解任务的通用视频助手的潜力。