小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI

机器之心数据服务已上线,提供高效稳定的数据获取,简化数据爬取流程。

ICCV 2025 | 打造通用工具智能体的基石:北大提出ToolVQA数据集,引领多模态多步推理VQA新范式

机器之心
机器之心 · 2025-08-22T05:39:09Z

机器之心数据服务现已上线,提供高效稳定的数据获取,简化数据爬取流程。

分子「去毒」VQA上线:测测你的多模态大模型是不是个合格的「绝命毒师」?

机器之心
机器之心 · 2025-06-23T03:55:16Z
DocQA:用于生成语言模型的日语文档问答数据集

JdocQA是一个日本语的VQA数据集,包含四个回答,旨在测试常识,帮助减少LLM的幻觉。研究涉及OCR-VQA等模型和数据集,并通过多种指标进行评估。

DocQA:用于生成语言模型的日语文档问答数据集

DEV Community
DEV Community · 2025-05-10T06:02:18Z

本研究提出了新的视频数据集R^3-VQA,以解决社交推理任务的复杂性不足问题。研究表明,现有视觉语言模型在复杂社交场景中的推理能力仍低于人类,而心理理论的应用可以提升其社交推理能力。

R^3-VQA: 通过视频社交推理“读懂房间”

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-05-07T00:00:00Z
视觉SSL终于追上了CLIP!Yann LeCun、谢赛宁等新作,逆转VQA任务固有认知

研究者探讨了无语言监督的视觉表征学习在多模态任务中的潜力,提出的Web-SSL模型在视觉问题解答(VQA)中表现优异,甚至超越了语言监督的方法。通过扩展数据和模型规模,视觉自监督学习在OCR和图表理解任务中展现出强大能力。

视觉SSL终于追上了CLIP!Yann LeCun、谢赛宁等新作,逆转VQA任务固有认知

机器之心
机器之心 · 2025-04-03T03:34:35Z

本研究提出KOFFVQA基准,旨在解决视觉语言模型评估中的主观性和开放性不足问题。该基准包含275个问题,结合图像和10个评分标准,通过客观评估提高评分一致性和可靠性,以更好地评估不同语言模型的表现。

KOFFVQA: An Objectively Evaluated Free-form VQA Benchmark for Large Vision-Language Models (Korean)

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-03-31T00:00:00Z

本研究提出了新基准数据集VQA-Levels,系统评估视觉问答(VQA)系统的能力。结果表明,现有系统在简单问题上表现良好,但在复杂问题上的成功率较低,为未来研究提供了参考。

VQA级别:一种用于分类视觉问答问题的层次方法

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-02-05T00:00:00Z

Blink是一个新基准,用于评估多模式语言模型的视觉感知能力。通过14个计算机视觉任务生成3,807个多项选择题,结果显示人类准确率为95.70%,而GPT-4V和Gemini的准确率仅为51.26%和45.72%。这表明当前多模式LLMs在视觉感知方面仍需改进。

幻觉VQA:基准测试与增强多模态模型在视觉幻觉上的表现

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-12-11T00:00:00Z
NeurIPS 2024 - 创建SPIQA:解决现有科学VQA数据集的局限性

哈普里特·萨霍塔与施拉曼·普拉马尼克讨论了他在NeurIPS 2024的论文《创建SPIQA:解决现有科学VQA数据集的局限性》。完整访谈可在YouTube观看。

NeurIPS 2024 - 创建SPIQA:解决现有科学VQA数据集的局限性

DEV Community
DEV Community · 2024-12-06T17:20:20Z

本研究解决了现有医学视觉问答任务中对模型鲁棒性评估的不足,提出了名为SURE-VQA的新框架,强调需在真实分布变化下进行评估,并利用大型语言模型进行语义分析。研究结果显示,一些不依赖图像数据的基线表现良好,同时确定了LoRA方法在提升鲁棒性方面的优越性,但并没有单一方法在鲁棒性上持续优于其他方法。

SURE-VQA:医学视觉问答任务中鲁棒性评估的系统理解

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-11-29T00:00:00Z

本研究提出了VQA2指令数据集,专注于视频质量评估的视觉问答。基于该数据集开发的VQA2系列模型在视频质量评分任务中表现优异,超越了GPT-4o,展现出良好的多功能性。

VQA²:用于视频质量评估的视觉问答

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-11-06T00:00:00Z

本研究提出了一种创新方法,结合大型语言模型和视觉问答系统,从少量视觉数据中学习新物体并提供解释。实验结果显示,该方法计算开销低,性能与现有方法相当,并具备可解释性。

帮助我识别:LLM+VQA系统是否足以识别视觉概念?

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-10-17T00:00:00Z

ReLaX-VQA是一种用于无参考视频质量评估的模型,通过分析视频片段的残差帧、光流和采样帧的空间特征表达,并利用深度神经网络中的层叠技术来增强其抽象能力。在四个UGC数据集上进行了广泛测试,结果显示ReLaX-VQA在NR-VQA方法中表现优越,平均SRCC值为0.8658,PLCC值为0.8872。该模型的开源代码和训练模型也已提供,以促进进一步的研究和应用。

ReLaX-VQA: 提升视频质量评估的残差模块和层堆叠提取

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-07-16T00:00:00Z

HyperAI超神经推出了「Meet AI4S」系列直播栏目,首期邀请浙江大学博士生丁佳乐分享神经网络在房价空间异质性方面的新解释。HyperAI官网更新了10个公共数据集和3个教程精选,包括医学VQA评测数据集、角色设定和对话数据集、常识推理数据集等。教程涵盖YOLOv10目标检测、图像转换和文本转图像等内容。此外,还有社区文章精选和热门百科词条。

一键运行 ComfyUI SD3!大规模医学 VQA 评测数据集上线,涉及超 20 个人体器官和部位

HyperAI超神经
HyperAI超神经 · 2024-07-12T07:03:58Z

本文介绍了一种多模态自动标注流程,可以生成用于训练开放式类别的无标注3D边界框和轨迹,从而处理自动驾驶等安全关键应用中可能在部署后遇到的新物体类型。相比于当前领域的最新研究,我们的方法可以以无监督的方式处理静态和移动的对象,并通过提出的视觉-语言知识蒸馏方法输出开放式词汇的语义标签。基于Waymo开放数据集的实验证明,我们的方法在各种无监督3D感知任务上显著优于先前的工作。

VQA-Diff:自动驾驶中基于零样本图像到 3D 车辆资源生成的 VQA 和扩散算法利用

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-07-09T00:00:00Z

基于BLIP-2框架,开发了一种视觉语言模型,实现了共享的图像-文本嵌入空间。通过评估病理医师,发现78%的WSI的模型生成的文本准确无误。这项工作展示了语言与WSI嵌入的潜力。

WSI-VQA: 利用生成式视觉问答解释全切片图像

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-07-08T00:00:00Z

我们生成了一个包含超过 200 万个问题 - 答案对的大型综合多模态数据集 SK-VQA,该数据集需要外部知识来确定最终答案。通过广泛的实验,我们证明我们的合成数据集不仅可以作为一个具有挑战性的基准测试,而且对于调整现有的生成性多模态模型以进行上下文增强生成也非常有效。

SK-VQA:用于训练上下文增强的多模态 LLM 的大规模合成知识生成

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-06-28T00:00:00Z

本文介绍了一个新的基准数据集SK-VG,用于测试模型在长篇场景知识上的推理能力。作者提出了两种处理三元类型输入的方法,并通过实验证明了这些方法的可行性和有希望的结果。然而,仍有改进的空间,包括性能和可解释性。

关于视觉定位在 VQA 中的作用

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-06-26T00:00:00Z

探讨构建更凝聚稳定的 Med-VQA 结构,通过提出的 Tri-VQA 框架从 “为什么是这个答案?” 的角度构建逆因果问题,阐明答案来源并激发更合理的正向推理过程。

Tri-VQA: 医学图像三角推理多属性分析的视觉问答

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-06-21T00:00:00Z

大型语言模型和大型视觉模型越来越能够解决组合推理任务,通过突破视觉问题回答基准测试的方法来衡量。然而,现有的解决方案通常涉及大规模预训练和微调数据集的精心构建,这可能代价高昂。本研究提出了一种技术,可以直接利用现有的训练集来构建以任务度量为奖励的计算环境。通过这种方式,我们通过集成外部信号来增强训练集。我们的实验证明了 Gemini...

VQA 训练集是用于生成少样本汇集的自对弈环境

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-05-30T00:00:00Z
  • <<
  • <
  • 1 (current)
  • 2
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
友情链接: MOGE.AI 九胧科技 模力方舟 Gitee AI 菜鸟教程 Remio.AI DeekSeek连连 53AI 神龙海外代理IP IPIPGO全球代理IP 东波哥的博客 匡优考试在线考试系统 开源服务指南 蓝莺IM Solo 独立开发者社区 AI酷站导航 极客Fun 我爱水煮鱼 周报生成器 He3.app 简单简历 白鲸出海 T沙龙 职友集 TechParty 蟒周刊 Best AI Music Generator

小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码