本研究提出了一种基于因果图模型的视觉-语言解码器,旨在提升对人类语言组合特性的理解。实验结果显示,该方法在多个基准测试中显著优于现有技术,并在大规模数据集上表现更佳。
完成下面两步后,将自动完成登录并继续当前操作。