利用多模态大语言模型推进自我中心视频问答

利用多模态大语言模型推进自我中心视频问答

💡 原文英文,约200词,阅读约需1分钟。
📝

内容提要

本文评估了多模态大语言模型在Egocentric视频问答中的表现,使用QaEgo4Dv2数据集。研究发现,经过微调的Video-LLaVa-7B和Qwen2-VL-7B-Instruct在OpenQA和CloseQA中表现优异,超越了之前的基准。然而,模型在空间推理和细粒度物体识别方面仍存在困难。

🎯

关键要点

  • Egocentric视频问答需要模型处理长时间的时间推理和第一人称视角。
  • 本文系统评估了多模态大语言模型在QaEgo4Dv2数据集上的表现。
  • 评估的模型包括GPT-4o、Gemini-1.5-Pro、Video-LLaVa-7B和Qwen2-VL-7B-Instruct。
  • 使用零-shot和微调的方法评估OpenQA和CloseQA设置。
  • 引入QaEgo4Dv2以减少QaEgo4D中的注释噪声,便于更可靠的比较。
  • 微调后的Video-LLaVa-7B和Qwen2-VL-7B-Instruct在OpenQA和CloseQA中表现优异,超越了之前的基准。
  • 在OpenQA中,模型性能提高了最多2.6%的ROUGE/METEOR,在CloseQA中提高了13%的准确率。
  • 错误分析显示模型在空间推理和细粒度物体识别方面存在困难,需进一步改进。

延伸问答

什么是Egocentric视频问答?

Egocentric视频问答是指需要模型处理长时间的时间推理和第一人称视角的视频问答任务。

本文评估了哪些多模态大语言模型?

本文评估了GPT-4o、Gemini-1.5-Pro、Video-LLaVa-7B和Qwen2-VL-7B-Instruct等四种多模态大语言模型。

微调后的模型在OpenQA和CloseQA中的表现如何?

微调后的Video-LLaVa-7B和Qwen2-VL-7B-Instruct在OpenQA中提高了最多2.6%的ROUGE/METEOR,在CloseQA中提高了13%的准确率。

QaEgo4Dv2数据集的作用是什么?

QaEgo4Dv2数据集旨在减少QaEgo4D中的注释噪声,从而便于更可靠的比较。

模型在空间推理方面存在哪些困难?

模型在空间推理和细粒度物体识别方面存在困难,这些是需要进一步改进的关键领域。

如何评估多模态大语言模型的性能?

多模态大语言模型的性能通过零-shot和微调的方法在OpenQA和CloseQA设置中进行评估。

➡️

继续阅读