本文研究了CLIP在合成知识下图像描述的能力,提出了五种计算模型并设计了新的训练算法CoSI。通过属性-对象标记任务和空间关系任务的测试,结果显示CLIP在属性-对象标记任务中表现良好且能够推广至新的未知属性-对象组合,但无法可靠地绑定特性和学习对象之间的关系。
完成下面两步后,将自动完成登录并继续当前操作。