最重要人物定位与群体情境理解的 MIP-GAF:一种 MLLM 注释基准
原文中文,约200字,阅读约需1分钟。发表于: 。本研究旨在解决社交活动中最重要人物(MIP)识别的复杂性和标注数据稀缺问题。提出了一种基于多模态大型语言模型(MLLM)的数据注释策略,并进行了数据质量分析和基准测试,发现现有的 MIP 定位算法在真实场景中的表现有显著下降。这一新数据集将对下一代社交情境理解方法的发展产生重要影响。
本文提出了一种基于Transformer的联合注意力估计方法,通过引入上下文线索和模拟属性之间的相互作用,编码低维特征。通过预测像素级联合注意力的置信度热力图,改善了热力图准确性,并结合图像的普通注意力估计进一步提高了联合注意力估计。在定量实验中表现更好。