3D-GRAND: 为 3D-LLMs 提供更好的定位和更少的幻觉

📝

内容提要

通过引入具有 40,087 个家庭场景和 6.2 百万个密集绑定的场景语言指令的 3D-GRAND,本文展示了对 3D-LLMs 中的指令调优在地面设置和降低幻觉方面的显著增强。另外,该文还提出了一个全面的基准测试 3D-POPE,以系统地评估 3D-LLMs 中的幻觉,并促进未来模型之间的公正比较。我们的实验强调了数据集规模和 3D-LLM 性能之间的扩展效应,强调了大规模 3D...

➡️

继续阅读