我们研究了机器对手绘草图的理解,提出了一种基于CLIP模型的草图编码器。通过视觉提示微调视觉编码器,实现语义分割。设计了两级网络,第一层编码场景,第二层专注类别,并引入交叉注意机制。在FS-COCO数据集上准确率达85.5%,超过无标注CLIP。用户研究显示方法需改进。
完成下面两步后,将自动完成登录并继续当前操作。