小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI
利用多模态大语言模型推进自我中心视频问答

本文评估了多模态大语言模型在Egocentric视频问答中的表现,使用QaEgo4Dv2数据集。研究发现,经过微调的Video-LLaVa-7B和Qwen2-VL-7B-Instruct在OpenQA和CloseQA中表现优异,超越了之前的基准。然而,模型在空间推理和细粒度物体识别方面仍存在困难。

利用多模态大语言模型推进自我中心视频问答

Apple Machine Learning Research
Apple Machine Learning Research · 2025-06-30T00:00:00Z

本研究提出了PerceptionLM框架,解决了视觉语言模型的闭源问题,并发布了280万个人工标注的视频问答对,以促进详细视频理解。同时推出的PLM-VideoBench评估套件推动了透明研究的进展。

PerceptionLM: Open-Access Data and Models for Detailed Visual Understanding

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-04-17T00:00:00Z

该研究提出了一种新型时间三重变换器(T3T),有效解决视频问答中的非线性交互问题,显著提升了准确性和深度。

视频流作为时间序列:发现视频问答中的时间一致性和变异性

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-04-08T00:00:00Z

本研究评估了多模态大语言模型在自我中心视频问答中的表现,特别是针对长时间跨度推理和第一人称视角的挑战。引入的QaEgo4Dv2数据集显示,微调后的Video-LLaVa-7B和Qwen2-VL-7B-Instruct在问答任务中表现优异,提升了准确性,并指明了未来改进方向。

利用多模态大语言模型推动自我中心视频问答的进展

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-04-06T00:00:00Z

本文提出了一种新方法,通过双图和异构图在视频问答中进行信息传递,以提高静态关系识别的准确性。实验结果表明,该方法在ANetQA和Next-QA数据集上显著提升了答案推理的准确性。

利用静态关系进行视频问答中的同类型与异类型信息传递

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-04-03T00:00:00Z

本研究提出了一种主动关键帧搜索(AKeyS)算法,旨在提升视频问答中的视频理解能力。该算法通过现代语言代理优化经典搜索方法,有效区分关键信息与冗余内容,从而显著提高搜索效率并降低计算成本。实验结果表明,AKeyS在关键帧搜索方面优于以往方法。

Agentic Keyframe Search for Video Question Answering

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-03-20T00:00:00Z

中山大学与南洋理工大学等团队提出了跨模态因果对齐框架(CRA),旨在提升视频问答的时空定位准确性与可解释性。CRA通过三个模块优化因果推理,克服现有模型的统计偏差问题,已在CVPR 2025接收并开源代码。

CVPR’25跨模态因果对齐,让机器更懂视觉证据丨中大南洋理工等联合开源

量子位
量子位 · 2025-03-17T03:58:46Z

本研究提出了一种语义驱动的搜索框架,解决长视频理解中文本查询与视觉元素之间的逻辑关系。通过定义四种逻辑依赖关系,动态更新帧采样分布,实现语义关键帧识别,显著提升了关键帧选择和视频问答任务的性能。

Logic-in-Frames: Dynamic Keyframe Search for Long Video Understanding via Visual Semantic-Logical Verification

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-03-17T00:00:00Z

本研究提出了一种新框架VITED,旨在解决复杂视频问答中的链式证据推理问题,能够有效利用视频中的关键证据,超越现有模型。

视频时间证据提取

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-03-17T00:00:00Z

本研究提出了Multi-Object Multi-Actor Question Answering (MOMA-QA)数据集,以解决视频问答中的时间和空间粒度不足问题。同时,提出了一种新的视频语言模型SGVLM,结合场景图预测和大型语言模型,显著提升了视频理解的精细度。

Towards Fine-Grained Video Question Answering

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-03-10T00:00:00Z

本研究提出了一种轻量级的多模态大语言模型(M-LLM)帧选择方法,旨在解决长视频中重要信息丢失的问题。通过自适应选择相关帧并结合空间和时间监督信号进行训练,显著提升了视频问答的性能。

基于M-LLM的视频帧选择以提高视频理解效率

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-02-27T00:00:00Z

本文提出了一种新的无学习令牌压缩方法,旨在降低视觉-语言模型的计算成本和推理时间。该方法通过空间和时间维度的压缩,显著提升了模型的推理效率,实验结果在视频问答任务中表现突出。

面向多模态大语言模型的无学习令牌压缩

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-01-29T00:00:00Z

本研究提出了一种新方法ReasVQA,旨在提升视频问答模型的性能。通过多模态大型语言模型生成推理过程,实验结果表明该方法在多个基准测试中显著提高了性能,验证了推理过程的重要性。

ReasVQA:通过不完善推理过程推进视频问答

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-01-23T00:00:00Z

本研究提出VidCtx框架,旨在解决大型多模态模型在视频问答中的计算和内存限制。通过整合视觉信息与文本描述,提升问答的相关性和有效性,实验结果表明其在基准测试中表现优异。

VidCtx:基于图像模型的上下文感知视频问答

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-12-23T00:00:00Z

本文提出局部-全球问知视频嵌入(LGQAVE),通过跨注意力机制和动态图转换器整合多模态知识,显著提升视频问答的准确性。

基础模型与自适应特征选择:视频问答的协同方法

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-12-12T00:00:00Z
如今的智能体,已经像人一样「浏览」视频了,国内就有

NVIDIA推出的AI Blueprint旨在提升视频内容搜索效率,但试用中遇到流量限制等问题。相比之下,开源项目OmAgent提供更强大的多模态视频问答功能,支持多设备,简化智能体开发。

如今的智能体,已经像人一样「浏览」视频了,国内就有

机器之心
机器之心 · 2024-11-22T05:20:44Z

本研究提出了一种名为EVQAScore的无参考评估方法,旨在解决视频问答和字幕数据质量评估的问题。该方法通过关键词提取和帧采样技术,提高了评估的效率和鲁棒性,并在VATEX-EVAL基准上表现出色。

EVQAScore:高效的视频问答数据评估

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-11-11T00:00:00Z
基于跨模态对比表征学习的鲁棒视频问答 | 杨勋,曾建明,汪萌等

研究团队提出了一种鲁棒的视频问答框架,通过自监督对比学习和时序正则项,提升了视频内容理解能力,减少了数据偏见的影响。实验结果表明,该方法在多个数据集上显著提高了问答性能,尤其在处理不平衡数据时表现突出。

基于跨模态对比表征学习的鲁棒视频问答 | 杨勋,曾建明,汪萌等

实时互动网
实时互动网 · 2024-10-23T06:10:48Z

本研究推出了TVBench,一个开源的视频选择问答基准,旨在解决现有基准缺乏时间推理能力和过度依赖文本的问题。研究发现,TVBench要求模型具备较强的时间理解能力,大多数现有模型表现接近随机水平,只有Gemini-Pro和Tarsier明显优于基线。

TVBench:重新设计视频-语言评估

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-10-10T00:00:00Z

本文介绍了EditVid-QA视频问答基准,涵盖特效、搞笑、网络迷因和游戏四类编辑。研究发现现有的视频LMMs在编辑视频上表现不佳。通过基于Panda-70M/WebVid和TikTok/CapCut视频收集训练集,提升了EditVid-QA的性能。评估中使用GPT-4 judge和关键词过滤来避免“sorry”攻击。数据集仅供学术用途。

Q-Bench-Video:视频质量理解的基准测试

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-09-30T00:00:00Z
  • <<
  • <
  • 1 (current)
  • 2
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
友情链接: MOGE.AI 九胧科技 模力方舟 Gitee AI 菜鸟教程 Remio.AI DeekSeek连连 53AI 神龙海外代理IP IPIPGO全球代理IP 东波哥的博客 匡优考试在线考试系统 开源服务指南 蓝莺IM Solo 独立开发者社区 AI酷站导航 极客Fun 我爱水煮鱼 周报生成器 He3.app 简单简历 白鲸出海 T沙龙 职友集 TechParty 蟒周刊 Best AI Music Generator

小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码