BriefGPT - AI 论文速递 ·

基于大型视觉 - 语言模型的上下文感知情感识别

💡 原文中文，约1500字，阅读约需4分钟。

📝

内容提要

本文提出了一种两阶段方法，通过视觉和大规模语言模型（VLLMs）增强上下文情绪分类。首先生成情绪描述，然后结合图像输入训练基于变换器的模型。研究表明，该方法在多个数据集上优于单一模态，并在小型数据集上微调后显著提升性能，旨在帮助机器人和智能系统更好地理解和识别情感。

🎯

❓

研究提出了一种两阶段方法，通过视觉和大规模语言模型生成情绪描述，并结合图像输入训练基于变换器的模型。

该方法在 EMOTIC、CAER-S 和 BoLD 三个数据集上表现优于单一模态。

在小型数据集上微调后，视觉语言模型的性能显著提升。

研究旨在帮助机器人和智能系统更好地理解和识别情感。

首先利用大规模语言模型生成自然语言描述主体与视觉情境之间的情绪。

研究通过构建因果图和设计 Contextual Causal Intervention Module (CCIM) 来解决上下文偏见问题。

🏷️