本研究提出了一种名为Ross3D的重构视觉指令调优方法,旨在解决大规模三维视觉-语言数据集的缺乏问题。该方法通过三维视觉监督,提升了三维场景理解的性能,并展示了未标记三维数据的潜力。
完成下面两步后,将自动完成登录并继续当前操作。