Apple Machine Learning Research ·

Point-3D LLM：研究令牌结构对大型语言模型3D场景理解的影响

💡 原文英文，约300词，阅读约需1分钟。

📝

内容提要

有效的3D场景表示对多模态大型语言模型至关重要。本文比较了视频和点云表示，提出了一种结合3D点云特征的新方法，显著提升了性能。实验结果表明，经过巧妙采样和排序的点基结构在多个3D理解基准上表现优异，能够与视频基结构相媲美。

🎯

🔎

在多模态大型语言模型中，3D场景的有效表示至关重要。传统方法多依赖于2D图像特征，可能无法充分捕捉空间信息。本文通过引入3D点云特征，展示了如何提升模型的理解能力，强调了3D表示在复杂场景分析中的潜力。

文章系统比较了基于视频和点云的表示方法，指出经过巧妙采样和排序的点基结构能够与视频基结构相媲美。这一发现为未来的研究提供了新的方向，尤其是在资源有限的情况下，点云表示可能成为更具优势的选择。

研究强调了对标记结构的分析作为关键贡献，透明报告多个种子的结果有助于提高研究的可信度。这种方法不仅增强了结果的可重复性，也为其他研究者提供了参考，推动了3D理解领域的进步。

❓

有效的3D场景表示对多模态大型语言模型至关重要，因为它能够提升模型在理解和处理3D信息时的性能。

本文提出了一种新方法，通过结合3D点云特征来丰富视觉标记，从而提升3D场景理解的性能。

经过巧妙采样和排序的点基结构能够与视频基结构相媲美，并在多个3D理解基准上表现优异。

实验结果表明，合并显式3D特征显著提升了模型的性能，最佳模型在多个基准上取得了最先进的结果。

本文强调对标记结构的分析是关键贡献，并透明报告了多个种子的结果，认为这是推动该领域稳健进展的重要实践。

3D场景的视觉标记是通过结合图像编码器特征、点云编码器特征和位置编码来构建的，点云特征通过最近邻插值与图像特征位置对齐。

🏷️