本研究探讨了多模态大语言模型在处理小视觉细节时的感知限制,发现其对视觉主题大小敏感。提出了一种无训练的视觉干预方法,利用模型的注意力和梯度图,显著提升了对小细节的感知能力。
完成下面两步后,将自动完成登录并继续当前操作。