小红花·文摘

该研究提出了一种从大规模预训练视觉模型中提取空间布局和语义分割的方法。通过分析神经网络激活中的分组信息，无需猜测模型的哪个部分包含相关信息。通过优化目标在各个层中的特征比较得到一组亲和矩阵，解决了这一优化问题。结果表明，关键字和查询向量根据空间接近度协调关注信息流，而值向量则用于完善语义类别表示。