小红花·文摘

本研究提出了一种基于因果图模型的视觉-语言解码器，旨在提升对人类语言组合特性的理解。实验结果显示，该方法在多个基准测试中显著优于现有技术，并在大规模数据集上表现更佳。