小红花·文摘

本研究关注语言多模态模型在多学科讲座理解中的不足，提出Video-MMLU基准，评估90多种模型，揭示其认知局限，并探讨视觉标记数量对表现的影响。

BriefGPT - AI 论文速递 ·

本研究提出了DivPrune方法，旨在解决大型多模态模型中视觉标记过多的问题。该方法通过最大化标记多样性来减少冗余，提高模型的代表性。实验结果表明，DivPrune在多个数据集上实现了高准确率，并显著降低了延迟和GPU内存使用。

BriefGPT - AI 论文速递 ·

本研究提出了一种新方法——每层每头视觉标记修剪（PLPHP），旨在提高大型视觉语言模型的推理效率。该方法通过动态调整视觉标记保留率，显著提升解码速度18%，减少缓存大小，同时保持较小的性能损失。

BriefGPT - AI 论文速递 ·

本研究提出了一种新的视角，针对多模态大语言模型中视觉标记的计算开销问题。通过DART修剪方法，能够在信息损失较少的情况下显著加快处理速度，实验表明DART可修剪88.9%的视觉标记并提升速度。

BriefGPT - AI 论文速递 ·

本研究探讨了视觉标记数量与视觉语言模型性能的关系。通过理论分析与实证评估，发现模型在标记长度上展现出弱扩展能力，并提出新架构以减少标记数量，从而提升性能。这一发现有助于开发更高效的视觉语言模型。

BriefGPT - AI 论文速递 ·

本研究提出了ShowUI模型，旨在提升语言代理对用户界面视觉的理解能力。该模型通过UI引导的视觉标记选择和视觉-语言-动作流，实现高效的GUI任务管理，零-shot屏幕定位准确率达到75.1%，并减少33%冗余视觉标记，显著提升性能。

BriefGPT - AI 论文速递 ·

该研究提出了一种粗到细的视觉标记压缩方法，有效解决了高分辨率图像带来的视觉标记数量激增和计算成本增加的问题，并在多个数据集上验证了其有效性。

BriefGPT - AI 论文速递 ·

本研究提出了一种轻量级视频模型LITE，旨在提高视频理解的效率。通过分析视觉标记的价值分布，LITE能够有效选择少量高价值标记，超越现有方法。

BriefGPT - AI 论文速递 ·

该研究介绍了一种新颖的多模态模型，通过叠加视觉标记在 RGB 图像上，实现了对特定区域的理解，并在区域理解任务上取得了最先进的性能。研究还提出了ViP-Bench，一个综合评估模型在理解多个维度上的视觉提示能力的基准，为未来的研究提供了可能。

BriefGPT - AI 论文速递 ·

Qdrant - Vector Database ·