小红花·文摘

研究提出了LLaVA-3D框架，将LLaVA的2D理解与3D Patch结合，提升3D场景理解。实验显示其训练速度和性能优于现有3D多模态模型。还介绍了Chat-3D、LL3DA等3D语言模型，展示了在3D场景理解和对话中的应用优势。