本文介绍了一种名为Dual-Glance的模型,通过提取人物关注视线特征,结合注意力机制识别图片中的社交关系。该方法采用Adaptive Focal Loss处理模糊注释,实验结果显示其在社交关系识别中表现优异。此外,研究还提出了基于多粒度推理的框架和其他视觉关系检测方法,均在多个数据集上取得了良好效果。
该研究探讨了基于图神经网络的多目标跟踪和视觉关系检测算法,展示了其在运动对象分割、人物重识别和视频交互识别等领域的优越性,显著提高了检测的准确性和效率。
研究人员提出了一种基于Transformer的图像编码器模型,用于开放词汇视觉关系检测。该模型在Visual Genome和GQA基准测试中表现出最佳的关系检测性能。
完成下面两步后,将自动完成登录并继续当前操作。