小红花·文摘

本研究提出了一种基于稀疏自编码器（SAEs）的新框架，以解决视觉-语言模型（VLMs）的语义可解释性问题。实验结果表明，SAEs显著增强了神经元的单语义性，并有效引导多模态大语言模型（LLMs）的输出。