小红花·文摘

本研究提出了Counting Transformer（CounTR）和CLIP-Count等新技术，能够高精度计数任意语义类别的目标。通过无监督预训练和有监督微调，结合文本与图像生成模型，显著提升了零样本和少样本计数的性能，尤其在多个数据集上表现优异。