通过使用CLIP等语言-视觉模型生成文本特征嵌入,改善特征空间,模拟增量情景,并使用CLIP图像编码器识别潜在对象并分类。在PASCAL VOC 2007数据集上评估,方法优于最先进的方法,特别是对于新的类别。
完成下面两步后,将自动完成登录并继续当前操作。