本文介绍了一种多模态对比训练的神经网络模型CLIP,可同时处理图像和文本,学习它们之间的语义关系。CLIP在图像标注、视觉问答、图像生成等任务中表现出色。文章提供了CLIP的安装和API使用方法,并展示了其零样本能力和Linear-probe评估。
完成下面两步后,将自动完成登录并继续当前操作。