通过图像字幕生成模拟视觉语义,利用注意力提取增强的多层交叉模态语义不协调表达,用于多模式讽刺检测
原文中文,约300字,阅读约需1分钟。发表于: 。本研究提出了一个新颖的多模态讽刺检测框架,利用跨语言语言模型进行鲁棒的文本特征提取、自主调节的残差 ConvNet 和轻量级空间感知注意力模块进行视觉特征提取,以及使用编码器 - 解码器架构生成图像标题的额外模态,从而更准确地捕捉文本和图像内容之间的差异。该模型在 Twitter 多模态讽刺和 MultiBully 数据集上分别取得了 92.89% 和 64.48% 的最佳准确率。
本研究提出了一个新颖的多模态讽刺检测框架,利用跨语言语言模型进行文本特征提取,使用残差ConvNet和轻量级空间感知注意力模块进行视觉特征提取,以及使用编码器-解码器架构生成图像标题的额外模态。该模型在Twitter多模态讽刺和MultiBully数据集上分别取得了92.89%和64.48%的最佳准确率。