本文介绍了一种名为MultiCapCLIP的零样本方法,可在多场景和多语言中生成视觉描述。该方法在四个基准测试和四种语言上相对于最先进的零样本和弱监督方法分别有4.8%和21.5%的绝对改进。
完成下面两步后,将自动完成登录并继续当前操作。