小红花·文摘

机器之心数据服务已上线，提供高效稳定的数据获取，简化数据爬取流程。

ICCV 2025 | 打造通用工具智能体的基石：北大提出ToolVQA数据集，引领多模态多步推理VQA新范式

机器之心 ·

机器之心数据服务现已上线，提供高效稳定的数据获取，简化数据爬取流程。

分子「去毒」VQA上线：测测你的多模态大模型是不是个合格的「绝命毒师」？

机器之心 ·

DocQA：用于生成语言模型的日语文档问答数据集

DEV Community ·

本研究提出了新的视频数据集R^3-VQA，以解决社交推理任务的复杂性不足问题。研究表明，现有视觉语言模型在复杂社交场景中的推理能力仍低于人类，而心理理论的应用可以提升其社交推理能力。

R^3-VQA: 通过视频社交推理“读懂房间”

BriefGPT - AI 论文速递 ·

视觉SSL终于追上了CLIP！Yann LeCun、谢赛宁等新作，逆转VQA任务固有认知

机器之心 ·

本研究提出KOFFVQA基准，旨在解决视觉语言模型评估中的主观性和开放性不足问题。该基准包含275个问题，结合图像和10个评分标准，通过客观评估提高评分一致性和可靠性，以更好地评估不同语言模型的表现。

KOFFVQA: An Objectively Evaluated Free-form VQA Benchmark for Large Vision-Language Models (Korean)

BriefGPT - AI 论文速递 ·

本研究提出了新基准数据集VQA-Levels，系统评估视觉问答（VQA）系统的能力。结果表明，现有系统在简单问题上表现良好，但在复杂问题上的成功率较低，为未来研究提供了参考。

VQA级别：一种用于分类视觉问答问题的层次方法

BriefGPT - AI 论文速递 ·

该研究探讨了视觉问题回答（VQA）领域的复杂性，提出了新的评估方法和数据集，以解决大型视觉-语言模型在物体虚构和事实准确性方面的问题。研究表明，现有模型在低层次视觉感知上表现不佳，尤其在处理图像对时，强调了未来改进的必要性。

幻觉VQA：基准测试与增强多模态模型在视觉幻觉上的表现

BriefGPT - AI 论文速递 ·

NeurIPS 2024 - 创建SPIQA：解决现有科学VQA数据集的局限性

DEV Community ·

本研究解决了现有医学视觉问答任务中对模型鲁棒性评估的不足，提出了名为SURE-VQA的新框架，强调需在真实分布变化下进行评估，并利用大型语言模型进行语义分析。研究结果显示，一些不依赖图像数据的基线表现良好，同时确定了LoRA方法在提升鲁棒性方面的优越性，但并没有单一方法在鲁棒性上持续优于其他方法。

SURE-VQA：医学视觉问答任务中鲁棒性评估的系统理解

BriefGPT - AI 论文速递 ·

本研究提出了VQA2指令数据集，专注于视频质量评估的视觉问答。基于该数据集开发的VQA2系列模型在视频质量评分任务中表现优异，超越了GPT-4o，展现出良好的多功能性。

VQA²: Visual Question Answering for Video Quality Assessment

BriefGPT - AI 论文速递 ·

本文综述了视觉问答（VQA）任务，比较了传统方法与常识知识的融合，评估了不同数据集的问答对。探讨了未来发展方向，强调结构化知识库与自然语言处理模型的结合，研究了零样本VQA的能力，提出了新模型和策略以提高性能，并探讨了逻辑组合问题的解决方案。

帮助我识别：LLM+VQA系统是否足以识别视觉概念？

BriefGPT - AI 论文速递 ·

本文介绍了一种新的视频质量评估模型VIDEVAL，旨在提升用户生成内容（UGC）视频的感知质量。该模型通过融合多种特征，兼顾性能与效率，并在多个基准测试中表现优异。此外，研究还探讨了无参考视觉质量评估（NR-VQA）和自我监督学习方法，以提高评估准确性。

ReLaX-VQA: 提升视频质量评估的残差模块和层堆叠提取

BriefGPT - AI 论文速递 ·

HyperAI超神经推出了「Meet AI4S」系列直播栏目，首期邀请浙江大学博士生丁佳乐分享神经网络在房价空间异质性方面的新解释。HyperAI官网更新了10个公共数据集和3个教程精选，包括医学VQA评测数据集、角色设定和对话数据集、常识推理数据集等。教程涵盖YOLOv10目标检测、图像转换和文本转图像等内容。此外，还有社区文章精选和热门百科词条。

一键运行 ComfyUI SD3！大规模医学 VQA 评测数据集上线，涉及超 20 个人体器官和部位

HyperAI超神经 ·

本文提出了一种新方法，结合预训练的文字转图像模型和3D体渲染技术，生成一致性更高的多视角3D图像。通过Zero123-6D方法和DI-V2X框架，提升了零侧位姿估计性能和V2X 3D物体检测效果，同时提出的新世界建模方法显著改善了自动驾驶中的点云观测。

VQA-Diff：自动驾驶中基于零样本图像到 3D 车辆资源生成的 VQA 和扩散算法利用

BriefGPT - AI 论文速递 ·

基于BLIP-2框架，开发了一种视觉语言模型，结合病理报告与切片图像，实现文本生成和检索。研究表明，模型生成文本的准确率达到78%。提出的FiVE框架通过细粒度语义提高分类准确性，尤其在肺癌数据集上表现优异。同时，探讨了模型的解释性，并提出新方法以提升分类性能，显示出深度学习在医学领域的巨大应用潜力。

WSI-VQA: 利用生成式视觉问答解释全切片图像

BriefGPT - AI 论文速递 ·

我们生成了一个包含超过 200 万个问题 - 答案对的大型综合多模态数据集 SK-VQA，该数据集需要外部知识来确定最终答案。通过广泛的实验，我们证明我们的合成数据集不仅可以作为一个具有挑战性的基准测试，而且对于调整现有的生成性多模态模型以进行上下文增强生成也非常有效。

SK-VQA：用于训练上下文增强的多模态 LLM 的大规模合成知识生成

BriefGPT - AI 论文速递 ·

本文探讨了视觉问题回答（VQA）中的视觉定位方法，提出了新系统和度量标准，以提升模型在处理不完美图像时的性能。研究强调了视觉提示和开放式视觉定位的潜力，并展示了新基准数据集SK-VG的有效性，以增强视觉与语言信息的对齐。

关于视觉定位在 VQA 中的作用

BriefGPT - AI 论文速递 ·

探讨构建更凝聚稳定的 Med-VQA 结构，通过提出的 Tri-VQA 框架从 “为什么是这个答案？” 的角度构建逆因果问题，阐明答案来源并激发更合理的正向推理过程。

Tri-VQA: 医学图像三角推理多属性分析的视觉问答

BriefGPT - AI 论文速递 ·

大型语言模型和大型视觉模型越来越能够解决组合推理任务，通过突破视觉问题回答基准测试的方法来衡量。然而，现有的解决方案通常涉及大规模预训练和微调数据集的精心构建，这可能代价高昂。本研究提出了一种技术，可以直接利用现有的训练集来构建以任务度量为奖励的计算环境。通过这种方式，我们通过集成外部信号来增强训练集。我们的实验证明了 Gemini...

VQA 训练集是用于生成少样本汇集的自对弈环境

BriefGPT - AI 论文速递 ·