Q-VLM：大型视觉-语言模型的后训练量化

本研究解决了大型视觉-语言模型（LVLMs）在多模态推理中的效率瓶颈，传统量化方法未能考虑层间依赖性，导致量化策略不佳。我们提出了一种新颖的方法，通过挖掘层间依赖性，以最低成本优化量化策略，实验结果显示，该方法在13B LLaVA模型上实现了2.78倍的内存压缩和1.44倍的生成速度提升，同时保持了性能水平。

本研究提出了一种新方法，通过挖掘层间依赖性优化大型视觉-语言模型的量化策略，解决多模态推理中的效率问题。实验显示，该方法在13B LLaVA模型上实现了2.78倍的内存压缩和1.44倍的生成速度提升，同时保持性能。此外，还探讨了量化感知规模学习和稀疏化技术的应用。

内存压缩多模态推理生成速度稀疏化技术语言模型量化策略