小红花·文摘

本研究提出了一种名为INTRA的方法，通过对比学习只依赖外观图进行特征识别，消除了配对数据集的需求，并结合视觉-语言模型嵌入，可以灵活生成文本条件下的效用图。实验结果表明，该方法在多个数据集上表现优异，并在新交互和物体的效用扎根方面具有显著的领域可扩展性。