💡
原文中文,约2800字,阅读约需7分钟。
📝
内容提要
上海交通大学i-WiN团队提出的CAD-GPT模型结合3D建模空间定位机制,显著提升了多模态大模型在CAD建模中的空间推理能力。该模型能够根据单张图片或文本描述生成精准的CAD建模序列,表现出优越性能。
🎯
关键要点
- 上海交通大学i-WiN团队提出CAD-GPT模型,提升多模态大模型在CAD建模中的空间推理能力。
- CAD-GPT能够根据单张图片或文本描述生成精准的CAD建模序列,表现出优越性能。
- CAD建模是许多行业设计的标准方法,构建CAD模型需要专业知识和空间推理能力。
- 多模态大语言模型在3D建模领域存在推理限制,难以理解复杂的空间关系。
- CAD-GPT结合3D建模空间定位机制,将3D参数映射到1D语言信息维度,提升空间推理能力。
- 研究基于DeepCAD数据集,生成160k CAD模型图像和18k自然语言描述数据集。
- 训练采用LLaVA - 1.5 7B版本,分两个阶段进行,扩展LLM窗口长度到8192。
- CAD-GPT生成的模型展示了精准语义草图生成、空间推理能力和不同尺寸模型生成能力。
- 与DeepCAD、GPT-4和Qwen2-VL-Max等方法比较,CAD-GPT输出准确且美观。
- 消融实验表明,添加3D建模空间定位机制后,模型能精准推理空间角度和位置变化。
➡️