机器之心 ·

How to Efficiently Bridge Vision and Language: ByteDance & Sun Yat-sen University Introduce the New Multimodal Large Model Connector ParGo

💡 原文约200字/词，阅读约需1分钟。

📝

内容提要

AIxiv专栏促进了学术交流，报道了2000多篇内容。ParGo模型通过全局与局部视角有效连接视觉与语言，提升了多模态大语言模型的性能，克服了传统方法对细节的忽视。

🎯

🔎

ParGo模型通过结合全局和局部视角，克服了传统方法对显著区域的过度聚焦。这种创新使得视觉特征能够在更细腻的层面上得到全面展现，提升了多模态大语言模型的效果，尤其在处理细粒度特征时表现优异。

传统方法在处理视觉token时常常导致计算成本高昂，而ParGo通过全局-局部投影器有效控制了token数量。这一设计不仅降低了计算负担，还确保了细节信息的准确捕获，具有重要的实用价值。

在与Q-former等其他基于注意力机制的投影器比较中，ParGo在相同token数量下表现出更好的文字识别和局部元素识别能力。这表明ParGo在多模态任务中的优势，值得关注其在实际应用中的潜力。

❓

ParGo模型通过全局-局部投影器有效连接视觉与语言，克服了传统方法对显著区域的过度聚焦，能够同时提取局部和全局信息。

ParGo模型在多项权威基准测试中表现出色，成功入选AAAI 2025，并在不同基座LLM下展现了良好的泛化性能。

ParGo模型采用全局和局部两种可学习token，结合注意力机制，有效控制视觉token数量，降低计算成本。

ParGo模型的核心模块包括Partial-Global Perception Block和Cascaded Partial Perception Block。

ParGo模型通过结合局部token和全局token，并使用特殊设计的注意力掩码，增强了局部区域之间的关系建模，从而提升细粒度特征的捕获能力。

ParGo模型克服了传统方法对细节的忽视，能够在控制token数量的同时，准确捕获细粒度和空间关系，提升了视觉与语言的对齐效果。

🏷️