本文研究了多模态大型语言模型(MLLMs)在不同动作空间中的有效嵌入,以利用其多模态知识。通过统一架构和动作空间适配器,我们发现连续动作中的学习标记化提供了足够的建模精度,而离散动作与MLLM原生输出对齐效果最佳。研究涵盖了七种动作空间适配器在五个环境中的114个任务。
本研究提出的GeoSplatting方法有效解决了物理基础反向渲染中几何体、材料和光照捕获的难题。该方法结合3D高斯点绘制与显式几何指导,显著提高了建模精度和材料分解的准确性。实验结果表明,GeoSplatting在多样化数据集上优于现有技术。
本研究提出了一种优化技术,从已知姿态的2D前向声纳图像中提取3D水下物体模型。该方法通过去除多径伪影和利用镜面成分的视觉线索,提高了建模精度。实验表明,经过约六次迭代后,能够生成更精细的3D模型。
完成下面两步后,将自动完成登录并继续当前操作。