小红花·文摘

我们研究了机器对手绘草图的理解，提出了一种基于CLIP模型的草图编码器。通过视觉提示微调视觉编码器，实现语义分割。设计了两级网络，第一层编码场景，第二层专注类别，并引入交叉注意机制。在FS-COCO数据集上准确率达85.5%，超过无标注CLIP。用户研究显示方法需改进。