本文提出了一种单张图像中的联合注意力估计方法,通过引入上下文线索和模拟属性之间的相互作用,采用基于Transformer的注意力网络编码联合注意力为低维特征。通过预测像素级联合注意力的置信度热力图,改善了热力图的准确性,并结合了图像的普通注意力估计进一步提高了联合注意力的估计。与其他方法相比,在定量实验中表现更好。
完成下面两步后,将自动完成登录并继续当前操作。