最重要人物定位与群体情境理解的 MIP-GAF：一种 MLLM 注释基准

本研究旨在解决社交活动中最重要人物（MIP）识别的复杂性和标注数据稀缺问题。提出了一种基于多模态大型语言模型（MLLM）的数据注释策略，并进行了数据质量分析和基准测试，发现现有的 MIP 定位算法在真实场景中的表现有显著下降。这一新数据集将对下一代社交情境理解方法的发展产生重要影响。

本文提出了一种基于Transformer的联合注意力估计方法，通过引入上下文线索和模拟属性之间的相互作用，编码低维特征。通过预测像素级联合注意力的置信度热力图，改善了热力图准确性，并结合图像的普通注意力估计进一步提高了联合注意力估计。在定量实验中表现更好。