量子位 ·

多模态推理最高加速3.2倍！华为诺亚新算法入选NeurIPS 2025

💡 原文中文，约3500字，阅读约需9分钟。

📝

内容提要

华为诺亚方舟实验室提出的视觉感知投机推理（ViSpec）算法，将多模态大模型的推理速度提升至最高3.22倍，同时保持生成质量。这一创新有效解决了现有方法在处理视觉信息时的效率问题，为多模态模型的应用提供了新方案。

🎯

🔎

多模态大模型在处理视觉信息时面临效率瓶颈，尤其是在生成长文本时，计算成本和时间延迟显著增加。ViSpec算法通过引入轻量级视觉适配器，解决了这一问题，使得模型在处理复杂视觉信息时更加高效，推动了多模态模型的实际应用。

ViSpec的成功依赖于三大创新：轻量级视觉适配器、全局视觉特征注入和长回复数据集的合成。这些机制不仅提升了推理速度，还确保了生成质量的无损，展示了在多模态推理领域的显著进步。

随着ViSpec技术的成熟，未来在手机、汽车和智能家居等边缘设备上，强大的多模态大模型将能够实现更自然的交互。这一进展将为人机交互带来新的可能性，推动智能化应用的发展。

❓

ViSpec算法的主要创新包括轻量级视觉适配器、全局视觉特征注入机制和合成长回复数据集的训练策略。

ViSpec通过引入轻量级视觉适配器和全局视觉特征注入机制，显著提高了多模态模型的推理速度，最高可达3.22倍。

ViSpec在提升推理速度的同时，生成质量保持与原始模型一致，没有任何损失。

实验结果显示，ViSpec在多个主流VLM上实现了平均2.5倍以上的加速比，最高可达3.22倍。

ViSpec解决了多模态模型在处理视觉信息时的效率问题，尤其是在生成长篇回复时的计算成本和时间延迟。

ViSpec有望在手机、汽车、智能家居等边缘设备上流畅运行，推动人机交互的智能化。

🏷️