本研究提出了塔西尔2,一个先进的大规模视觉语言模型,旨在生成准确的视频描述,并展现出卓越的视频理解能力。通过优化预训练数据和时序对齐,塔西尔2在多个基准测试中超越了其他领先模型。
完成下面两步后,将自动完成登录并继续当前操作。