INF-LLaVA:高分辨率多模态大语言模型的双视角感知

💡 原文中文,约200字,阅读约需1分钟。
📝

内容提要

本论文提出了一种新的框架和优化策略,通过混合适配器从全局视图中提取上下文信息,并引入可学习的查询嵌入来减少图像标记,同时通过相似性选择器选择用户问题的关键标记,实现更好的性能表现。此外,通过交替训练的方式平衡学习全局和局部方面,并引入高要求图像细节的数据集来增强局部压缩层的训练,提出的方法在各项基准测试中表现出优异性能。

🎯

关键要点

  • 提出了一种新的框架和优化策略。

  • 通过混合适配器提取全局视图中的上下文信息。

  • 引入可学习的查询嵌入以减少图像标记。

  • 使用相似性选择器选择用户问题的关键标记。

  • 通过交替训练平衡全局和局部学习。

  • 引入高要求图像细节的数据集以增强局部压缩层的训练。

  • 提出的方法在各项基准测试中表现优异。

➡️

继续阅读