关于使用视觉语言模型进行视觉情感分析的研究:针对 CLIP 的一项研究
原文中文,约300字,阅读约需1分钟。发表于: 。本研究在探索如何利用 CLIP 嵌入空间进行视觉情感分析,通过在 WEBEmo 基准测试上训练 CLIP-E 模型和进行交叉数据集评估,发现 CLIP-E 方法在细粒度分类和一些未经训练数据集上的泛化能力均优于现有模型,这引发了关于设计新基准和评估视觉情感分析的问题,并讨论了是否应该继续设计专门的深度学习模型或者更好地利用 CLIP 等大型视觉 - 语言模型的知识来解决这一任务。
本研究利用CLIP嵌入空间进行视觉情感分析,发现CLIP-E方法泛化能力优于现有模型。讨论了设计新基准和更好地利用大型视觉-语言模型的知识来解决任务的问题。