Apple Machine Learning Research ·

利用多模态大语言模型推进自我中心视频问答

💡 原文英文，约200词，阅读约需1分钟。

📝

内容提要

本文评估了多模态大语言模型在Egocentric视频问答中的表现，使用QaEgo4Dv2数据集。研究发现，经过微调的Video-LLaVa-7B和Qwen2-VL-7B-Instruct在OpenQA和CloseQA中表现优异，超越了之前的基准。然而，模型在空间推理和细粒度物体识别方面仍存在困难。

🎯

关键要点

Egocentric视频问答需要模型处理长时间的时间推理和第一人称视角。
本文系统评估了多模态大语言模型在QaEgo4Dv2数据集上的表现。
评估的模型包括GPT-4o、Gemini-1.5-Pro、Video-LLaVa-7B和Qwen2-VL-7B-Instruct。
使用零-shot和微调的方法评估OpenQA和CloseQA设置。
引入QaEgo4Dv2以减少QaEgo4D中的注释噪声，便于更可靠的比较。
微调后的Video-LLaVa-7B和Qwen2-VL-7B-Instruct在OpenQA和CloseQA中表现优异，超越了之前的基准。
在OpenQA中，模型性能提高了最多2.6%的ROUGE/METEOR，在CloseQA中提高了13%的准确率。
错误分析显示模型在空间推理和细粒度物体识别方面存在困难，需进一步改进。

❓

延伸问答

什么是Egocentric视频问答？

Egocentric视频问答是指需要模型处理长时间的时间推理和第一人称视角的视频问答任务。

本文评估了哪些多模态大语言模型？

本文评估了GPT-4o、Gemini-1.5-Pro、Video-LLaVa-7B和Qwen2-VL-7B-Instruct等四种多模态大语言模型。

微调后的模型在OpenQA和CloseQA中的表现如何？

微调后的Video-LLaVa-7B和Qwen2-VL-7B-Instruct在OpenQA中提高了最多2.6%的ROUGE/METEOR，在CloseQA中提高了13%的准确率。

QaEgo4Dv2数据集的作用是什么？

QaEgo4Dv2数据集旨在减少QaEgo4D中的注释噪声，从而便于更可靠的比较。

模型在空间推理方面存在哪些困难？

模型在空间推理和细粒度物体识别方面存在困难，这些是需要进一步改进的关键领域。

如何评估多模态大语言模型的性能？

多模态大语言模型的性能通过零-shot和微调的方法在OpenQA和CloseQA设置中进行评估。

🏷️

继续阅读

分析：AI 助手在回答流媒体可用性查询方面表现不一致
一项分析显示，流媒体影片可用性数据的准确率，ChatGPT为43.76%，Claude为50.21%，而Reelgood高达96.89%。大语言模型在处理...
YouTube获得行业首个短视频MRC认证
YouTube连续第六年获得媒体评级委员会（MRC）的品牌安全认证，并首次将认证扩展至YouTube Shorts，成为首个获得短视频品牌安全认证的平台。...
从任意视角探索场景：3D体积视频技术突破意味着3D流媒体可能很快成为现实
布朗大学研究人员推出了名为PackUV的3D体积视频处理方法，旨在实现可存储、流式传输的逼真3D视频。该技术通过多台摄像机拍摄场景，并利用算法重建三维空间...
App+1 | 零基础 3 分钟在线搞定产品演示视频：Mockup Studio
Mockup Studio 是一个在线工具，用户可以快速制作产品展示视频，只需拖入录屏并调整样式即可导出成品。该工具简化了视频制作流程，适合开发者和产品经...
Lumine Group 达成协议，将从 Synamedia 收购其视频网络业务
Lumine Group宣布收购Synamedia的视频网络业务，这是其第16笔企业剥离交易，旨在增强其在媒体供应链中的布局，专注于视频处理和直播流媒体。...
OpenClaw v2026.6.1：Windows原生节点、支持MiniMax M3
OpenClaw 2026.6.1版本发布，支持Windows原生节点，简化使用流程。新增Agent技能工坊，允许Agent自学修复问题并存储技能。工作板...