机器之心数据服务已上线,提供高效稳定的数据获取,简化数据爬取流程。
机器之心数据服务现已上线,提供高效稳定的数据获取,简化数据爬取流程。
JdocQA是一个日本语的VQA数据集,包含四个回答,旨在测试常识,帮助减少LLM的幻觉。研究涉及OCR-VQA等模型和数据集,并通过多种指标进行评估。
本研究提出了新的视频数据集R^3-VQA,以解决社交推理任务的复杂性不足问题。研究表明,现有视觉语言模型在复杂社交场景中的推理能力仍低于人类,而心理理论的应用可以提升其社交推理能力。
研究者探讨了无语言监督的视觉表征学习在多模态任务中的潜力,提出的Web-SSL模型在视觉问题解答(VQA)中表现优异,甚至超越了语言监督的方法。通过扩展数据和模型规模,视觉自监督学习在OCR和图表理解任务中展现出强大能力。
本研究提出KOFFVQA基准,旨在解决视觉语言模型评估中的主观性和开放性不足问题。该基准包含275个问题,结合图像和10个评分标准,通过客观评估提高评分一致性和可靠性,以更好地评估不同语言模型的表现。
本研究提出了新基准数据集VQA-Levels,系统评估视觉问答(VQA)系统的能力。结果表明,现有系统在简单问题上表现良好,但在复杂问题上的成功率较低,为未来研究提供了参考。
该研究探讨了视觉问题回答(VQA)领域的复杂性,提出了新的评估方法和数据集,以解决大型视觉-语言模型在物体虚构和事实准确性方面的问题。研究表明,现有模型在低层次视觉感知上表现不佳,尤其在处理图像对时,强调了未来改进的必要性。
哈普里特·萨霍塔与施拉曼·普拉马尼克讨论了他在NeurIPS 2024的论文《创建SPIQA:解决现有科学VQA数据集的局限性》。完整访谈可在YouTube观看。
本研究解决了现有医学视觉问答任务中对模型鲁棒性评估的不足,提出了名为SURE-VQA的新框架,强调需在真实分布变化下进行评估,并利用大型语言模型进行语义分析。研究结果显示,一些不依赖图像数据的基线表现良好,同时确定了LoRA方法在提升鲁棒性方面的优越性,但并没有单一方法在鲁棒性上持续优于其他方法。
本研究提出了VQA2指令数据集,专注于视频质量评估的视觉问答。基于该数据集开发的VQA2系列模型在视频质量评分任务中表现优异,超越了GPT-4o,展现出良好的多功能性。
本文综述了视觉问答(VQA)任务,比较了传统方法与常识知识的融合,评估了不同数据集的问答对。探讨了未来发展方向,强调结构化知识库与自然语言处理模型的结合,研究了零样本VQA的能力,提出了新模型和策略以提高性能,并探讨了逻辑组合问题的解决方案。
本文介绍了一种新的视频质量评估模型VIDEVAL,旨在提升用户生成内容(UGC)视频的感知质量。该模型通过融合多种特征,兼顾性能与效率,并在多个基准测试中表现优异。此外,研究还探讨了无参考视觉质量评估(NR-VQA)和自我监督学习方法,以提高评估准确性。
HyperAI超神经推出了「Meet AI4S」系列直播栏目,首期邀请浙江大学博士生丁佳乐分享神经网络在房价空间异质性方面的新解释。HyperAI官网更新了10个公共数据集和3个教程精选,包括医学VQA评测数据集、角色设定和对话数据集、常识推理数据集等。教程涵盖YOLOv10目标检测、图像转换和文本转图像等内容。此外,还有社区文章精选和热门百科词条。
本文提出了一种新方法,结合预训练的文字转图像模型和3D体渲染技术,生成一致性更高的多视角3D图像。通过Zero123-6D方法和DI-V2X框架,提升了零侧位姿估计性能和V2X 3D物体检测效果,同时提出的新世界建模方法显著改善了自动驾驶中的点云观测。
基于BLIP-2框架,开发了一种视觉语言模型,结合病理报告与切片图像,实现文本生成和检索。研究表明,模型生成文本的准确率达到78%。提出的FiVE框架通过细粒度语义提高分类准确性,尤其在肺癌数据集上表现优异。同时,探讨了模型的解释性,并提出新方法以提升分类性能,显示出深度学习在医学领域的巨大应用潜力。
我们生成了一个包含超过 200 万个问题 - 答案对的大型综合多模态数据集 SK-VQA,该数据集需要外部知识来确定最终答案。通过广泛的实验,我们证明我们的合成数据集不仅可以作为一个具有挑战性的基准测试,而且对于调整现有的生成性多模态模型以进行上下文增强生成也非常有效。
本文探讨了视觉问题回答(VQA)中的视觉定位方法,提出了新系统和度量标准,以提升模型在处理不完美图像时的性能。研究强调了视觉提示和开放式视觉定位的潜力,并展示了新基准数据集SK-VG的有效性,以增强视觉与语言信息的对齐。
探讨构建更凝聚稳定的 Med-VQA 结构,通过提出的 Tri-VQA 框架从 “为什么是这个答案?” 的角度构建逆因果问题,阐明答案来源并激发更合理的正向推理过程。
大型语言模型和大型视觉模型越来越能够解决组合推理任务,通过突破视觉问题回答基准测试的方法来衡量。然而,现有的解决方案通常涉及大规模预训练和微调数据集的精心构建,这可能代价高昂。本研究提出了一种技术,可以直接利用现有的训练集来构建以任务度量为奖励的计算环境。通过这种方式,我们通过集成外部信号来增强训练集。我们的实验证明了 Gemini...
完成下面两步后,将自动完成登录并继续当前操作。