小红花·文摘

通过使用CLIP等语言-视觉模型生成文本特征嵌入，改善特征空间，模拟增量情景，并使用CLIP图像编码器识别潜在对象并分类。在PASCAL VOC 2007数据集上评估，方法优于最先进的方法，特别是对于新的类别。