本研究关注语言多模态模型在多学科讲座理解中的不足,提出Video-MMLU基准,评估90多种模型,揭示其认知局限,并探讨视觉标记数量对表现的影响。
本研究提出了DivPrune方法,旨在解决大型多模态模型中视觉标记过多的问题。该方法通过最大化标记多样性来减少冗余,提高模型的代表性。实验结果表明,DivPrune在多个数据集上实现了高准确率,并显著降低了延迟和GPU内存使用。
本研究提出了一种新方法——每层每头视觉标记修剪(PLPHP),旨在提高大型视觉语言模型的推理效率。该方法通过动态调整视觉标记保留率,显著提升解码速度18%,减少缓存大小,同时保持较小的性能损失。
本研究提出DART修剪方法,解决多模态大语言模型中视觉标记的计算开销问题。实验结果表明,DART在信息损失较小的情况下,能够修剪88.9%的视觉标记,并显著提高处理速度。
本研究探讨视觉标记数量与视觉语言模型性能之间的关系,提出了一种新架构以减少标记数量并提升模型性能,从而推动更高效的视觉语言模型的开发。
本研究针对视频分析中高质量数据集不足和长视频处理效率低的问题,提出了大型合成数据集和动态视觉标记压缩架构,取得了先进的研究成果并建立了新基准。
本研究提出ShowUI模型,解决语言代理在理解用户界面视觉方面的局限。该模型通过UI引导的视觉标记选择,实现高效的GUI任务管理,零-shot屏幕定位准确率达到75.1%,并减少33%的冗余视觉标记。
该研究提出了一种粗到细的视觉标记压缩方法,有效解决了高分辨率图像带来的视觉标记数量激增和计算成本增加的问题,并在多个数据集上验证了其有效性。
本研究提出了一种轻量级视频模型LITE,旨在提高视频理解的效率。通过分析视觉标记的价值分布,LITE能够有效选择少量高价值标记,超越现有方法。
研究发现,残差型大型语言模型在生物医学图像任务中作为编码器具有意外的有效性。该方法利用预训练的大型语言模型中的冻结变压器块作为创新编码器层,可以直接处理视觉标记,并提升生物医学图像应用的性能。该研究在MedMNIST-2D和3D的大规模标准数据集上取得了卓越的性能,刷新了最新的技术结果。这项工作开拓了大型语言模型在生物医学图像领域的应用新途径。
该研究介绍了一种新颖的多模态模型,通过叠加视觉标记在 RGB 图像上,实现了对特定区域的理解,并在区域理解任务上取得了最先进的性能。研究还提出了ViP-Bench,一个综合评估模型在理解多个维度上的视觉提示能力的基准,为未来的研究提供了可能。
ColPali是一种多模态文档检索模型,能够处理PDF、图像和扫描文档。它通过将文档图像分割为空间补丁,生成视觉标记,直接匹配查询与文档的视觉区域,无需OCR。该模型结合视觉编码器和语言模型,优化文档检索,支持文本与视觉内容的精确匹配。
完成下面两步后,将自动完成登录并继续当前操作。