小红花·文摘

本研究提出了InternVL-X，采用三种视觉令牌压缩方法，解决了多模态大语言模型在处理视觉令牌时的计算资源和时间需求过大的问题。研究表明，仅使用20%或更少的视觉令牌，InternVL-X在7个公共基准测试中实现了平均2.34%的性能提升。

InternVL-X: Advancing and Accelerating the InternVL Series through Efficient Visual Token Compression

BriefGPT - AI 论文速递 ·

本研究提出了一种名为语言引导视觉令牌修剪（LVPruning）的方法，旨在减少多模态大型语言模型的计算负担。该方法通过评估视觉令牌的重要性，能够将视觉令牌数量减少至多90%，仅导致约0.45%的性能损失，显示出良好的应用潜力。

LV Pruning: An Effective and Simple Language-Guided Vision Token Pruning Method for Multi-Modal Large Language Models

BriefGPT - AI 论文速递 ·

本文介绍了一种新的模式转换器，通过卷积神经网络从输入图像中提取各种模式，并将其作为视觉令牌输入到后续的Transformer模型中，实现对图像的自适应转换。在CIFAR-10和CIFAR-100数据集上，通过使用通用ResNet和Transformer模型，取得了最新的性能，并在ImageNet上取得了优异的结果。

补丁不是全部所需

BriefGPT - AI 论文速递 ·