本文介绍了一种用于处理多概念输入图像的文本本地化模型。该模型通过交叉注意力引导方法,在微调过程中建立目标概念的视觉表示与标识符令牌之间的连接。实验结果表明,该方法在图像保真度和图像文本对齐方面优于基准模型,并且能够生成与目标概念一致的交叉注意力映射。
研究了五种概念消除方法,发现无法完全抹除目标概念。通过特殊的学习词嵌入,可以从消除后的模型中找回目标概念。这对AI安全算法工具箱的使用产生了质疑。
本文介绍了一种名为PerSAM的个性化方法,无需训练,通过位置先验定位目标概念,然后通过目标引导注意力、目标语义提示和级联后处理在其他图像或视频中对其进行分割。此外,还提出了一种高效的单次微调变体PerSAM-F,以缓解掩模的歧义。通过在具有竞争性性能的视频对象分割上测试,验证了该方法的有效性。
完成下面两步后,将自动完成登录并继续当前操作。