机器之心 ·

AAAI 2025 | 多模态大语言模型空间智能新探索：仅需单张图片或一句话，就可以精准生成3D建模代码啦！

💡 原文中文，约2800字，阅读约需7分钟。

📝

内容提要

上海交通大学i-WiN团队提出的CAD-GPT模型结合3D建模空间定位机制，显著提升了多模态大模型在CAD建模中的空间推理能力。该模型能够根据单张图片或文本描述生成精准的CAD建模序列，表现出优越性能。

🎯

🔎

CAD-GPT模型通过引入3D建模空间定位机制，成功将复杂的3D参数映射到1D语言信息中。这一创新使得模型在理解和生成CAD建模序列时，能够更好地处理空间关系，从而提升了生成的准确性和美观性。

随着CAD-GPT的推出，多模态大语言模型在3D建模领域的应用前景广阔。该模型不仅可以降低专业知识的门槛，还可能推动设计行业的数字化转型，使得更多非专业人士能够参与到CAD建模中来。

CAD-GPT在与DeepCAD、GPT-4和Qwen2-VL-Max等现有技术的比较中，展现出更高的输出准确性和美观性。这表明，CAD-GPT在处理复杂空间推理任务时，具有明显的优势，可能成为未来CAD建模的主流工具。

❓

CAD-GPT模型能够根据单张图片或文本描述生成精准的CAD建模序列。

CAD-GPT结合3D建模空间定位机制，将3D参数映射到1D语言信息维度，从而提升空间推理能力。

与DeepCAD、GPT-4和Qwen2-VL-Max等方法相比，CAD-GPT的输出既准确又美观。

计算机辅助设计（CAD）是许多行业设计、绘图和建模的标准方法。

研究基于DeepCAD数据集，生成了160k CAD模型图像和18k自然语言描述数据集。

CAD-GPT的训练包括两个阶段，首先在image2CAD任务上训练，然后在text2CAD任务上微调。

🏷️