小红花·文摘

本研究提出了一种名为Ross3D的重构视觉指令调优方法，旨在解决大规模三维视觉-语言数据集的缺乏问题。该方法通过三维视觉监督，提升了三维场景理解的性能，并展示了未标记三维数据的潜力。