小红花·文摘

本研究提出了ResNetVLLM框架，结合ResNet视觉编码器与大型语言模型，旨在解决零-shot视频理解问题。该模型在多个基准测试中表现优异，能够生成准确的上下文相关文本描述。