DocMSU: 文档级多模态讽刺理解的综合性基准
原文中文,约400字,阅读约需1分钟。发表于: 。本研究提出了一个用于文档级多模式讽刺理解的全面基准测试,并引入了细粒度的讽刺理解方法,有效地将图像特征与文本特征在文档中进行对齐,实验证明该方法可以作为具有挑战性的 DocMSU 的基线方法。
该研究使用MUStARD++数据集进行多模态严格基准测试,利用最先进的编码器改善了2%的宏平均F1值。通过MUStARD++平衡的扩展解决了数据集中`sarcasm type`类别的不平衡问题,进一步提升了2.4%的宏平均F1值。新的片段来自电视节目House MD,由多名注释者进行了手动注释,注释者一致性显著。代码、扩展数据和SOTA基准模型已公开。