BiLL-VTG: 融合大型语言模型和轻量级视觉工具进行基于视频的文本生成

通过使用 BiLL-VTG 框架，结合大型语言模型 (LLMs)、结构化场景图生成和描述性图像标题生成两种视觉工具，通过对特定视频事件进行多次推理步骤，实现对用户指令的文本回复，并通过 InsOVER 算法使用语言指令定位相应的视频事件，从而使 LLMs 能够与长视频进行交互，实验表明该框架优于预训练模型 Flamingo-80B，达到了最先进的性能。

该研究提出了一种基准线，利用预训练的I-VL模型进行视频理解任务的最小化训练，并将视频相关任务转化为预训练目标相同的格式。在行动识别、动作定位和文本-视频检索等测试中，实现了与现有方法相当或最新的性能。同时，进行了广泛的消融研究以分析关键组件以及与静态图像和视频之间的差距。