小红花·文摘

该研究介绍了TimeChat，一种用于长视频理解的多模态大语言模型。通过时间感知帧编码器和滑动视频Q-Former，将视觉内容与时间戳结合，生成适应不同视频长度的令牌序列。实验表明，TimeChat在多个视频理解任务中表现出色，具备成为通用视频助手的潜力。