AAAI 2025 | 多模态大语言模型空间智能新探索:仅需单张图片或一句话,就可以精准生成3D建模代码啦!

AAAI 2025 | 多模态大语言模型空间智能新探索:仅需单张图片或一句话,就可以精准生成3D建模代码啦!

💡 原文中文,约2800字,阅读约需7分钟。
📝

内容提要

上海交通大学i-WiN团队提出的CAD-GPT模型结合3D建模空间定位机制,显著提升了多模态大模型在CAD建模中的空间推理能力。该模型能够根据单张图片或文本描述生成精准的CAD建模序列,表现出优越性能。

🎯

关键要点

  • 上海交通大学i-WiN团队提出CAD-GPT模型,提升多模态大模型在CAD建模中的空间推理能力。

  • CAD-GPT能够根据单张图片或文本描述生成精准的CAD建模序列,表现出优越性能。

  • CAD建模是许多行业设计的标准方法,构建CAD模型需要专业知识和空间推理能力。

  • 多模态大语言模型在3D建模领域存在推理限制,难以理解复杂的空间关系。

  • CAD-GPT结合3D建模空间定位机制,将3D参数映射到1D语言信息维度,提升空间推理能力。

  • 研究基于DeepCAD数据集,生成160k CAD模型图像和18k自然语言描述数据集。

  • 训练采用LLaVA - 1.5 7B版本,分两个阶段进行,扩展LLM窗口长度到8192。

  • CAD-GPT生成的模型展示了精准语义草图生成、空间推理能力和不同尺寸模型生成能力。

  • 与DeepCAD、GPT-4和Qwen2-VL-Max等方法比较,CAD-GPT输出准确且美观。

  • 消融实验表明,添加3D建模空间定位机制后,模型能精准推理空间角度和位置变化。

延伸问答

CAD-GPT模型的主要功能是什么?

CAD-GPT模型能够根据单张图片或文本描述生成精准的CAD建模序列。

CAD-GPT是如何提升空间推理能力的?

CAD-GPT结合3D建模空间定位机制,将3D参数映射到1D语言信息维度,从而提升空间推理能力。

CAD-GPT与其他模型相比有什么优势?

与DeepCAD、GPT-4和Qwen2-VL-Max等方法相比,CAD-GPT的输出既准确又美观。

CAD建模的标准方法是什么?

计算机辅助设计(CAD)是许多行业设计、绘图和建模的标准方法。

CAD-GPT的训练数据集是如何构建的?

研究基于DeepCAD数据集,生成了160k CAD模型图像和18k自然语言描述数据集。

CAD-GPT的训练策略是什么?

CAD-GPT的训练包括两个阶段,首先在image2CAD任务上训练,然后在text2CAD任务上微调。

🏷️

标签

➡️

继续阅读