小红花·文摘

本研究探讨了多模态大语言模型在处理小视觉细节时的感知限制，发现其对视觉主题大小敏感。提出了一种无训练的视觉干预方法，利用模型的注意力和梯度图，显著提升了对小细节的感知能力。