小红花·文摘

本研究提出了一种新方法——视觉指令瓶颈调优（Vittle），旨在解决多模态大型语言模型（MLLMs）在分布转移时的性能下降问题。Vittle通过信息瓶颈原理，显著提升了模型在开放式与封闭式问答及物体幻觉检测任务中的鲁棒性。

Visual Instruction Bottleneck Tuning

BriefGPT - AI 论文速递 ·

本研究探讨了多模态大型语言模型（MLLMs）在医疗和自主驾驶领域的不确定性校准挑战。通过构建IDK数据集评估模型在面对未知时的表现，发现MLLMs倾向于给出答案而非承认不确定性。研究提出了温度缩放和迭代提示优化等校准技术，以提高模型的可靠性。

Unveiling Uncertainty: A Deep Dive into Calibration and Performance of Multimodal Large Language Models

BriefGPT - AI 论文速递 ·

本研究提出了ACE-$M^3$，一种开源的自动能力评估工具，旨在有效评估医疗领域的多模态大型语言模型（MLLMs）。该工具通过分支合并架构和奖励标记优化策略，提高了评估效率，实验结果显示其在评估医疗模型能力方面表现显著。

ACE-$M^3$: Automatic Capability Evaluator for Multimodal Medical Models

BriefGPT - AI 论文速递 ·

本研究提出了DecompGen框架，通过将多模态大型语言模型（MLLMs）的响应分解为原子验证任务，并利用专家模型进行评估，自动构建偏好数据集DGPref。实验结果表明，经过偏好学习的MLLMs在可信度上显著提升，验证了该方法的有效性。

Improving the Trustworthiness of Multimodal Large Language Models by Decomposing and Leveraging Preferences from Expert Models

BriefGPT - AI 论文速递 ·

本文探讨了多模态大型语言模型（MLLMs）在自动驾驶中的应用，评估其在空间识别、决策和遵守交通规则方面的能力。研究表明，GPT4-Vision等模型在动态驾驶环境中表现出色，但仍存在不足。通过DriveSim模拟器生成多样化场景，评估了MLLMs的能力，并提出改进建议，以提升其在真实世界中的适用性。

如何构建一个同时具备聊天和决策能力的预训练多模态模型？

BriefGPT - AI 论文速递 ·

本文评估了多模态大型语言模型（MLLMs）在低层视觉感知和理解方面的能力，发现其基本技能不稳定且不精确。通过多个基准测试，尤其是针对中国高考的GAOKAO-MM，模型的准确率普遍低于50%。研究还揭示了视觉-语言模型（VLMs）在文化理解方面的西方偏见，并提出了改进建议。

多模态大型语言模型能理解中国图像背后的深层含义吗？

BriefGPT - AI 论文速递 ·

本文介绍了多模态大型语言模型（MLLM）的评估基准MME，评估了10种先进模型的性能，并探讨了模型优化方向。研究表明，视觉指导调整在自然语言处理中的应用提升了模型的真实性和道德一致性。新基准测试评估了MLLM在抽象推理、人类活动预测和物理交互预测等领域的能力，强调了对现有模型的改进需求。

链接迷宫：多模态大型语言模型的联想导航

BriefGPT - AI 论文速递 ·

本文探讨了多模态大型语言模型（MLLMs）在视觉提示方面的创新方法，包括对话反馈优化文本提示、内存空间视觉提示（MemVP）和prompt-aware适配器等技术。这些方法显著提升了模型在视觉理解和推理任务中的性能，并降低了资源消耗，推动了视觉语言模型的研究进展。

图像注意力引导在大型视觉语言模型中的应用

BriefGPT - AI 论文速递 ·

本研究评估了多模态大型语言模型（MLLMs）在自动驾驶领域的应用，并发现它们在预测复杂、动态的驾驶环境中存在不足。研究结果突出了当前领先的MLLMs在真实动态环境中应用能力上的重要差距，强调了需要改进基础模型以提高其在真实世界动态环境中的适用性。

DriveGenVLM：基于视觉语言模型的真实世界视频生成用于自主驾驶

BriefGPT - AI 论文速递 ·

通过融合目标检测和字符识别模型，提升细粒度图像理解能力。多模态大型语言模型在视觉任务中表现优秀，超过先进模型。发布代码以探索多模态对话能力应用。

多模态大语言模型中的视觉表示法则

BriefGPT - AI 论文速递 ·

本研究重新思考了图像检索中的稀疏词汇表示，利用多模态大型语言模型提取图像特征。通过数据增强和关键字扩展，该方法在多个数据集上展现了更高的精准度和召回率，对关键词为基础的图像检索场景有重要影响。

在多模态大型语言模型崛起时代重新思考稀疏词汇表示用于图像检索

BriefGPT - AI 论文速递 ·

本研究提出了一种新的设计空间探索方法，解决了多模态大型语言模型中对复杂视觉信息解读的不足。通过连接互补视觉编码器的视觉标记，提升了模型一致性，使得新模型在主要基准测试中表现优于其他开源模型。

鹰：探索具有编码器混合的多模态大型语言模型的设计空间

BriefGPT - AI 论文速递 ·

通过融合先进的目标检测和光学字符识别模型，改进后的多模态大型语言模型在细粒度图像理解方面表现出色，性能提升12.99%，标志着多模态理解领域的重大进展。

划分、征服与结合：一种无需训练的高分辨率图像感知框架用于多模态大语言模型

BriefGPT - AI 论文速递 ·

本文回顾了最近的面向视觉的多模态大型语言模型的体系结构、对齐策略和训练技术，并分析了其在多个任务上的应用。同时，还比较了不同模型的性能和计算要求。这项调查为未来的多模态大型语言模型的发展奠定了基础。

MaVEn：一种有效的多粒度混合视觉编码框架用于多模态大语言模型

BriefGPT - AI 论文速递 ·

《Radiology Report Generation（R2Gen）》展示了多模态大型语言模型（MLLMs）如何自动化生成准确和连贯的放射学报告。通过引入新的策略SERPENT-VLM，该模型在IU X-ray和Radiology Objects in COntext（ROCO）数据集上优于现有的基线方法，并在嘈杂的图像环境中具有稳健性。这一研究为医学成像领域的自监督完善研究打开了新的研究路径。

TRRG：基于跨模态疾病线索增强的大型语言模型以实现真实的放射科报告生成

BriefGPT - AI 论文速递 ·

基于临床背景的医学影像放射报告生成研究

BriefGPT - AI 论文速递 ·

SPHINX-X是基于SPHINX的多模态大型语言模型系列，通过改进架构和训练效率，充分发挥多模态大型语言模型的潜力。通过组装多领域和多模态数据集，进一步丰富了数据集。通过在不同的基础LLM上进行训练，获得了参数大小和多语言能力各不相同的MLLM。全面的基准测试显示，多模态性能与数据和参数规模之间存在着强烈的相关性。

LongVILA：为长视频扩展长期上下文视觉语言模型

BriefGPT - AI 论文速递 ·

本综述论文研究了多模态大型语言模型（MLLMs），该模型整合了类似于GPT-4的大型语言模型（LLMs），用于处理文本和视觉等多模态数据。MLLMs展示了生成图像叙述和回答基于图像的问题等能力，缩小了人与计算机之间的差距，并暗示了通向人工智能的潜在途径。然而，MLLMs仍面临处理多模态语义差距的挑战，可能导致错误生成，对社会造成潜在风险。选择适当的模态对齐方法至关重要，因为不恰当的方法可能需要更多参数，并且性能改进有限。该论文旨在探讨LLMs的模态对齐方法及其现有能力。实施模态对齐使得LLMs能够解决环境问题并提高可访问性。研究调查了MLLMs中现有的模态对齐方法，分为四个组：（1）多模态转换器将数据转换为LLMs可以理解的格式；（2）多模态感知器改善LLMs对不同类型数据的感知能力；（3）工具辅助将数据转换为一种常见格式，通常是文本；以及（4）数据驱动方法教导LLMs理解数据集中特定类型的数据。这个领域仍处于探索和试验阶段，我们将组织和更新各种现有的多模态信息对齐研究方法。

Visual Instruction Bottleneck Tuning

Unveiling Uncertainty: A Deep Dive into Calibration and Performance of Multimodal Large Language Models

ACE-$M^3$: Automatic Capability Evaluator for Multimodal Medical Models

Improving the Trustworthiness of Multimodal Large Language Models by Decomposing and Leveraging Preferences from Expert Models

如何构建一个同时具备聊天和决策能力的预训练多模态模型？

多模态大型语言模型能理解中国图像背后的深层含义吗？

链接迷宫：多模态大型语言模型的联想导航

图像注意力引导在大型视觉语言模型中的应用

DriveGenVLM：基于视觉语言模型的真实世界视频生成用于自主驾驶

多模态大语言模型中的视觉表示法则

在多模态大型语言模型崛起时代重新思考稀疏词汇表示用于图像检索

鹰：探索具有编码器混合的多模态大型语言模型的设计空间

划分、征服与结合：一种无需训练的高分辨率图像感知框架用于多模态大语言模型

MaVEn：一种有效的多粒度混合视觉编码框架用于多模态大语言模型

TRRG：基于跨模态疾病线索增强的大型语言模型以实现真实的放射科报告生成

基于临床背景的医学影像放射报告生成研究

LongVILA：为长视频扩展长期上下文视觉语言模型

通过对抗性提示增强文本导向的多模态对齐的鲁棒性

R2GenCSR：基于大型语言模型的X射线医学报告生成的上下文样本检索

跨模态适配器：高效的多模态大型语言模型