小红花·文摘

本文介绍了一种多模态对比训练的神经网络模型CLIP，可同时处理图像和文本，学习它们之间的语义关系。CLIP在图像标注、视觉问答、图像生成等任务中表现出色。文章提供了CLIP的安装和API使用方法，并展示了其零样本能力和Linear-probe评估。