本研究提出了一种名为INTRA的方法,通过对比学习只依赖外观图进行特征识别,消除了配对数据集的需求,并结合视觉-语言模型嵌入,可以灵活生成文本条件下的效用图。实验结果表明,该方法在多个数据集上表现优异,并在新交互和物体的效用扎根方面具有显著的领域可扩展性。
完成下面两步后,将自动完成登录并继续当前操作。