小红花·文摘

本研究提出了一种多模态知识库框架，旨在提升视觉问答的灵活性和可扩展性。通过结合图形学习与知识图谱，系统在多个数据集上表现优异，特别是在常识推理和图像理解方面，展现了显著的有效性和泛化能力。

视觉问答的多模态常识知识蒸馏

BriefGPT - AI 论文速递 ·

本研究提出了一种多模态知识库框架，旨在提升视觉查询的回答能力。通过引入检索增强的多模态模型和新基准，研究在图像生成和描述生成任务上取得显著进展，尤其在多图像任务中表现优异。MIRAGE框架在效率和准确性上均有明显提升，推动了多模态模型的发展。

MRAG-Bench：以视觉为中心的检索增强多模态模型评估

BriefGPT - AI 论文速递 ·

本研究提出了一种多模态知识库框架，旨在通过大规模知识库回答视觉查询。介绍了“MultiModalQA”数据集和新框架，强调多模态推理的重要性。研究评估了大型语言模型在表格数据解释中的能力，并提出了视觉语言知识对齐的方法，显著提升了模型在知识型视觉问题回答上的性能。此外，开发了TabPedia和Table-LLaVA模型，推动了视觉表格理解的进展。

知识感知推理在多模态半结构化表格中的应用

BriefGPT - AI 论文速递 ·

本文介绍了多模态知识库OakInk，旨在理解手-物互动。Oak记录物体的可用性，Ink记录人类互动行为。研究还提出了HANDAL和TACO数据集，以支持机器人操作和手-物体交互分析，推动相关领域的发展。

OAKINK2：一个复杂任务完成下的双手物体操作数据集

BriefGPT - AI 论文速递 ·