本文研究了多模态大型语言模型(MLLMs)在不同动作空间中的有效嵌入,以利用其多模态知识。通过统一架构和动作空间适配器,我们发现连续动作中的学习标记化提供了足够的建模精度,而离散动作与MLLM原生输出对齐效果最佳。研究涵盖了七种动作空间适配器在五个环境中的114个任务。
本文提出了一种新型的多视角立体框架,消除了对深度范围的先验假设。通过多视角视差注意模块,该方法有效聚合了长距离上下文信息,提升了建模精度,实验结果在多个基准数据集上表现优异。
本研究提出的GeoSplatting方法有效解决了物理基础反向渲染中几何体、材料和光照捕获的难题。该方法结合3D高斯点绘制与显式几何指导,显著提高了建模精度和材料分解的准确性。实验结果表明,GeoSplatting在多样化数据集上优于现有技术。
完成下面两步后,将自动完成登录并继续当前操作。