高分辨率视觉 - 语言模型的高效灵活注意力机制

为了解决高分辨率视觉语言模型计算成本过高的问题，我们提出了一种灵活的注意力机制 FlexAttention。该机制通过使用高分辨率和低分辨率标记编码图像，并只利用低分辨率标记和一些选定的高分辨率标记来计算注意力图，显著减小了计算成本。在多模态基准测试中的实验证明，相对于现有的高分辨率 VLMs，FlexAttention 在 V* Bench 上提高了约 9％，在 TextVQA...

研究人员提出了一种灵活的注意力机制FlexAttention，通过使用高分辨率和低分辨率标记编码图像，并只利用低分辨率标记和一些选定的高分辨率标记来计算注意力图，从而显著减小了计算成本。实验证明，FlexAttention在多模态基准测试中提高了约9％，在TextVQA上提高了约7％，同时将计算成本显著降低约40％。