机器之心数据服务已上线,提供高效稳定的数据获取,简化数据爬取流程。
机器之心数据服务现已上线,提供高效稳定的数据获取,简化数据爬取流程。
JdocQA是一个日本语的VQA数据集,包含四个回答,旨在测试常识,帮助减少LLM的幻觉。研究涉及OCR-VQA等模型和数据集,并通过多种指标进行评估。
本研究提出了新的视频数据集R^3-VQA,以解决社交推理任务的复杂性不足问题。研究表明,现有视觉语言模型在复杂社交场景中的推理能力仍低于人类,而心理理论的应用可以提升其社交推理能力。
研究者探讨了无语言监督的视觉表征学习在多模态任务中的潜力,提出的Web-SSL模型在视觉问题解答(VQA)中表现优异,甚至超越了语言监督的方法。通过扩展数据和模型规模,视觉自监督学习在OCR和图表理解任务中展现出强大能力。
本研究提出KOFFVQA基准,旨在解决视觉语言模型评估中的主观性和开放性不足问题。该基准包含275个问题,结合图像和10个评分标准,通过客观评估提高评分一致性和可靠性,以更好地评估不同语言模型的表现。
本研究提出了新基准数据集VQA-Levels,系统评估视觉问答(VQA)系统的能力。结果表明,现有系统在简单问题上表现良好,但在复杂问题上的成功率较低,为未来研究提供了参考。
Blink是一个新基准,用于评估多模式语言模型的视觉感知能力。通过14个计算机视觉任务生成3,807个多项选择题,结果显示人类准确率为95.70%,而GPT-4V和Gemini的准确率仅为51.26%和45.72%。这表明当前多模式LLMs在视觉感知方面仍需改进。
哈普里特·萨霍塔与施拉曼·普拉马尼克讨论了他在NeurIPS 2024的论文《创建SPIQA:解决现有科学VQA数据集的局限性》。完整访谈可在YouTube观看。
本研究解决了现有医学视觉问答任务中对模型鲁棒性评估的不足,提出了名为SURE-VQA的新框架,强调需在真实分布变化下进行评估,并利用大型语言模型进行语义分析。研究结果显示,一些不依赖图像数据的基线表现良好,同时确定了LoRA方法在提升鲁棒性方面的优越性,但并没有单一方法在鲁棒性上持续优于其他方法。
本研究提出了VQA2指令数据集,专注于视频质量评估的视觉问答。基于该数据集开发的VQA2系列模型在视频质量评分任务中表现优异,超越了GPT-4o,展现出良好的多功能性。
本研究提出了一种创新方法,结合大型语言模型和视觉问答系统,从少量视觉数据中学习新物体并提供解释。实验结果显示,该方法计算开销低,性能与现有方法相当,并具备可解释性。
ReLaX-VQA是一种用于无参考视频质量评估的模型,通过分析视频片段的残差帧、光流和采样帧的空间特征表达,并利用深度神经网络中的层叠技术来增强其抽象能力。在四个UGC数据集上进行了广泛测试,结果显示ReLaX-VQA在NR-VQA方法中表现优越,平均SRCC值为0.8658,PLCC值为0.8872。该模型的开源代码和训练模型也已提供,以促进进一步的研究和应用。
HyperAI超神经推出了「Meet AI4S」系列直播栏目,首期邀请浙江大学博士生丁佳乐分享神经网络在房价空间异质性方面的新解释。HyperAI官网更新了10个公共数据集和3个教程精选,包括医学VQA评测数据集、角色设定和对话数据集、常识推理数据集等。教程涵盖YOLOv10目标检测、图像转换和文本转图像等内容。此外,还有社区文章精选和热门百科词条。
本文介绍了一种多模态自动标注流程,可以生成用于训练开放式类别的无标注3D边界框和轨迹,从而处理自动驾驶等安全关键应用中可能在部署后遇到的新物体类型。相比于当前领域的最新研究,我们的方法可以以无监督的方式处理静态和移动的对象,并通过提出的视觉-语言知识蒸馏方法输出开放式词汇的语义标签。基于Waymo开放数据集的实验证明,我们的方法在各种无监督3D感知任务上显著优于先前的工作。
基于BLIP-2框架,开发了一种视觉语言模型,实现了共享的图像-文本嵌入空间。通过评估病理医师,发现78%的WSI的模型生成的文本准确无误。这项工作展示了语言与WSI嵌入的潜力。
我们生成了一个包含超过 200 万个问题 - 答案对的大型综合多模态数据集 SK-VQA,该数据集需要外部知识来确定最终答案。通过广泛的实验,我们证明我们的合成数据集不仅可以作为一个具有挑战性的基准测试,而且对于调整现有的生成性多模态模型以进行上下文增强生成也非常有效。
本文介绍了一个新的基准数据集SK-VG,用于测试模型在长篇场景知识上的推理能力。作者提出了两种处理三元类型输入的方法,并通过实验证明了这些方法的可行性和有希望的结果。然而,仍有改进的空间,包括性能和可解释性。
探讨构建更凝聚稳定的 Med-VQA 结构,通过提出的 Tri-VQA 框架从 “为什么是这个答案?” 的角度构建逆因果问题,阐明答案来源并激发更合理的正向推理过程。
大型语言模型和大型视觉模型越来越能够解决组合推理任务,通过突破视觉问题回答基准测试的方法来衡量。然而,现有的解决方案通常涉及大规模预训练和微调数据集的精心构建,这可能代价高昂。本研究提出了一种技术,可以直接利用现有的训练集来构建以任务度量为奖励的计算环境。通过这种方式,我们通过集成外部信号来增强训练集。我们的实验证明了 Gemini...
完成下面两步后,将自动完成登录并继续当前操作。