机器之心 ·

无编码器架构潜力或被低估，首个无编码器3D多模态LLM大模型来了

💡 原文中文，约3700字，阅读约需9分钟。

📝

内容提要

AIxiv专栏促进学术交流，报道了2000多篇内容。汤轶等人研究了无编码器架构在3D多模态模型中的应用，提出了ENEL模型，其表现优于传统编码器模型，展示了无编码器架构的潜力。

🎯

🔎

ENEL模型展示了无编码器架构在3D多模态模型中的潜力，克服了传统编码器在点云分辨率和语义需求上的局限性。这一创新可能为未来的3D视觉任务提供更灵活的解决方案，尤其是在处理不同分辨率的点云数据时。

作者提出的混合语义损失策略结合了掩蔽建模和重建策略，显著提升了无编码器3D LMM的性能。这种方法不仅增强了模型对高层次语义的理解，还确保了几何一致性，为3D物体的理解提供了更全面的视角。

层次几何聚合策略使得ENEL模型能够更好地捕捉3D局部细节。通过对邻近点的门控自注意力机制，模型在处理复杂的空间结构时表现出色，这为未来的3D模型设计提供了新的思路。

❓

ENEL模型首次采用无编码器架构，直接将3D编码器的功能整合到LLM中，展示了其在3D多模态模型中的潜力。

ENEL-7B在3D物体描述任务中取得了50.92%的GPT-4得分，创下新的SOTA性能。

无编码器架构解决了3D编码器在点云分辨率和语义需求上的局限性，增强了模型的鲁棒性。

混合语义损失通过结合掩蔽建模和重建策略，帮助LLM学习高层次的语义信息并保持几何一致性。

ENEL模型在3D物体分类任务中超越了基于编码器的3D LMMs，取得了55%的GPT得分，表现更优。

ENEL模型使用7B Vicuna v1.1的检查点，经过两阶段训练，采用了多种优化策略和数据预处理方法。

🏷️