AAAI 2025 | 多模态大语言模型空间智能新探索:仅需单张图片或一句话,就可以精准生成3D建模代码啦!

AAAI 2025 | 多模态大语言模型空间智能新探索:仅需单张图片或一句话,就可以精准生成3D建模代码啦!

💡 原文中文,约2800字,阅读约需7分钟。
📝

内容提要

上海交通大学i-WiN团队提出的CAD-GPT模型结合3D建模空间定位机制,显著提升了多模态大模型在CAD建模中的空间推理能力。该模型能够根据单张图片或文本描述生成精准的CAD建模序列,表现出优越性能。

🎯

关键要点

  • 上海交通大学i-WiN团队提出CAD-GPT模型,提升多模态大模型在CAD建模中的空间推理能力。
  • CAD-GPT能够根据单张图片或文本描述生成精准的CAD建模序列,表现出优越性能。
  • CAD建模是许多行业设计的标准方法,构建CAD模型需要专业知识和空间推理能力。
  • 多模态大语言模型在3D建模领域存在推理限制,难以理解复杂的空间关系。
  • CAD-GPT结合3D建模空间定位机制,将3D参数映射到1D语言信息维度,提升空间推理能力。
  • 研究基于DeepCAD数据集,生成160k CAD模型图像和18k自然语言描述数据集。
  • 训练采用LLaVA - 1.5 7B版本,分两个阶段进行,扩展LLM窗口长度到8192。
  • CAD-GPT生成的模型展示了精准语义草图生成、空间推理能力和不同尺寸模型生成能力。
  • 与DeepCAD、GPT-4和Qwen2-VL-Max等方法比较,CAD-GPT输出准确且美观。
  • 消融实验表明,添加3D建模空间定位机制后,模型能精准推理空间角度和位置变化。
➡️

继续阅读