该研究介绍了TimeChat,一种用于长视频理解的多模态大语言模型。通过时间感知帧编码器和滑动视频Q-Former,将视觉内容与时间戳结合,生成适应不同视频长度的令牌序列。实验表明,TimeChat在多个视频理解任务中表现出色,具备成为通用视频助手的潜力。
完成下面两步后,将自动完成登录并继续当前操作。