本研究提出了一种多层融合与推理架构(MFRA),旨在解决视觉与语言导航中的复杂多模态交互问题。MFRA通过层次化机制显著提高了代理在导航场景中的决策准确性,优于现有方法。
完成下面两步后,将自动完成登录并继续当前操作。