小红花·文摘

本文探讨了英伟达的视觉语言模型Eagle 2，强调数据策略在模型开发中的关键作用。作者详细介绍了数据收集、过滤和选择的方法，提出多样化数据可提升模型性能。Eagle 2在多模态基准测试中表现出色，展示了开源视觉语言模型的潜力与发展方向。

多模态LLaVA系列与Eagle 2——从组合CLIP ViT和Vicuna的LLaVA，到英伟达开源的VLM Eagle 2(用于人形VLA GR00T N1中)

结构之法算法之道 ·

本研究解决了社交沟通中对高效计算机视觉工具的需求，提出了一种多模态大语言模型Face-LLaVA，用于面部表情和属性的识别以及自然语言生成。通过构建针对面部处理的FaceInstruct-1M数据库和独特的面部特征编码器，该模型在多个数据集和任务中表现优异，显示出相较于现有模型的显著优势和对社会AI发展的潜在影响。

面部LLaVA：通过指令调优实现面部表情和属性理解

BriefGPT - AI 论文速递 ·

轻量开源！微软基础模型LLaVA-Rad：自动生成高质量放射学报告

机器之心 ·

多模态大模型应用实践（一）- 利用微调 LLaVA 实现高效酒店图片分类

亚马逊AWS官方博客 ·

统一SAM2和LLaVA！字节豆包提出Dense Video多模态大模型Sa2VA

机器之心 ·

LLaVA-Mini发布！每张图像的视觉token压缩至1个，兼顾效率与内存

机器之心 ·

Sa2VA：通过 SAM-2 和 LLaVA 集成实现密集基础视频和图像理解的统一 AI 框架

实时互动网 ·

用LLaVA解读数万神经元，大模型竟然自己打开了多模态智能黑盒

机器之心 ·

LLaVA-CoT展示了如何在视觉语言模型中实现结构化的自主推理

InfoQ ·

LLaVA-o1：一个能够进行与 GPT-o1 类似的自发、系统推理的视觉语言模型

实时互动网 ·

本文综述了多模态大型语言模型（MLLMs）的最新进展，重点介绍了TinyGPT-V、Mipha和EE-MLLM等模型的设计与应用。研究分析了这些模型在视觉、语言和音频任务中的表现，并提出了知识蒸馏和新架构以提升效率。未来的研究方向将集中在优化计算资源和提升模型性能上。

LLaVA-KD：多模态大语言模型的蒸馏框架

BriefGPT - AI 论文速递 ·

YOLO是一种高效的目标检测方法，能够实时识别交通标志。研究提出了改进的MFL-YOLO模型，提升了检测精度和效率。在郊区社区的交通标志检测中，系统达到了96%的准确率，显示出改善道路安全的潜力。此外，研究还探讨了不同天气条件下的物体检测性能，为自动驾驶技术的发展提供支持。

人机协作的交通标志检测推理：将YOLO与Video-LLava结合的创新方法

BriefGPT - AI 论文速递 ·

本文介绍了医学图像与语言模型的研究进展，包括生成自然语言解释以验证医学图像预测的正确性，提出了MIMIC-NLE数据集及多种模型框架（如LLaVA-Med、PA-LLaVA），旨在提高医学诊断的准确性和实用性。同时，研究探讨了数据隐私和模型可解释性等挑战，并提出未来研究方向。

增强知识的LLaVA：基于知识图谱的自然语言生成用于解释胸部病变

BriefGPT - AI 论文速递 ·

本研究解决了多模态大型语言模型（MLLM）数据质量变异性的问题，通过提出一种新颖的指令策划算法，将人类与LLM的偏好对齐。研究显示，通过优化指令数据集，我们能将训练样本数量从158k减少到14k，同时在各种MLLM基准上表现优于使用全量数据集的模型，从而显著提高系统的效率和效果。

Align$^2$LLaVA：用于多模态指令策划的人类与大型语言模型偏好对齐的级联方法

BriefGPT - AI 论文速递 ·

研究提出了LLaVA-3D框架，将LLaVA的2D理解与3D Patch结合，提升3D场景理解。实验显示其训练速度和性能优于现有3D多模态模型。还介绍了Chat-3D、LL3DA等3D语言模型，展示了在3D场景理解和对话中的应用优势。

LLaVA-3D：一个简单而有效的通路，赋能大规模多模态模型以具备3D意识

BriefGPT - AI 论文速递 ·

本文介绍了一种无监督学习任务，联合建模视觉场景图和语言依赖树，构建了VLParse数据集，并提出了VLGAE框架用于视觉语言短语理解。研究强调了视觉信息和语言依赖关系在VL结构建模中的重要性，并提出了VLUE评估基准，以评估视觉语言处理模型的泛化能力和效率。此外，探讨了通过小型数据集和新训练范式提升VL模型表现的方法，推动了大规模视觉语言模型的发展。

LLaVA-SG：利用场景图作为视觉语义表达的视觉语言模型

BriefGPT - AI 论文速递 ·

该研究解决了在线食谱分享中对有效生成食品食谱的需求，提出了一种新颖的模型LLaVA-Chef，该模型经过针对多样食谱提示的定制数据集训练，以提高食品领域的理解能力。研究发现，LLaVA-Chef生成的食谱在成分提及的准确性和细节方面显著优于现有方法，显示出其在食品生成任务中的潜在影响。

LLaVA-Chef：一种用于食品食谱的多模态生成模型

BriefGPT - AI 论文速递 ·

本文介绍了针对大型语言模型（LLMs）和多模态学习的创新方法，如MiniLLM、u-LLaVA和MoE-LLaVA。这些方法通过优化模型结构和训练策略，提升了模型在视觉理解和对话任务中的性能，展示了小型模型在资源效率和复杂交互中的潜力。此外，研究探讨了知识蒸馏技术在提升小规模模型性能方面的应用，为未来的多模态学习系统提供了新思路。

通过MoE知识蒸馏使LLaVA变得更小: LLaVA-MoD框架

BriefGPT - AI 论文速递 ·

本研究通过构建新数据集Surg-QA，包含102,000个外科视频-指令对，并采用两阶段问答生成管道，提高了外科视频的多模态对话能力。研究结果显示，LLaVA-Surg在开放式外科视频问答任务中性能明显超越之前的模型，展现出卓越的多模态对话能力。

LLaVA-Surg：通过结构化外科视频学习迈向多模态外科助手

BriefGPT - AI 论文速递 ·

该研究提出了多模态大规模视觉语言模型（LVLM）及相关方法，如u-LLaVA和ViLaM，旨在解决任务间干扰问题，提升视觉与语言任务的性能。通过优化数据质量和训练配方，较小模型也能达到与大模型相当的效果，展示了在医学图像分析等领域的潜力。

LLaVA-OneVision：简易视觉任务迁移

BriefGPT - AI 论文速递 ·