本研究利用CLIP嵌入空间进行视觉情感分析,发现CLIP-E方法泛化能力优于现有模型。讨论了设计新基准和更好地利用大型视觉-语言模型的知识来解决任务的问题。
完成下面两步后,将自动完成登录并继续当前操作。