小红花·文摘

本文探讨了多模态技术在视觉导航和问答中的应用，强调单模态方法在捕捉数据集偏差方面的优势。实验表明，单模态方法的性能显著提升。提出了新任务和数据集，如Embodied Question Answering和SQA3D，以增强代理人的情境理解和推理能力。同时，介绍了Scene-LLM模型，提升了3D环境中的交互能力，推动了3D视觉理解的发展。