本研究提出了ResNetVLLM框架,结合ResNet视觉编码器与大型语言模型,旨在解决零-shot视频理解问题。该模型在多个基准测试中表现优异,能够生成准确的上下文相关文本描述。
完成下面两步后,将自动完成登录并继续当前操作。