蚂蚁灵波科技开源了LingBot-Depth模型,提升机器人和自动驾驶的三维视觉能力。该模型利用“掩码深度建模”技术,解决透明和反光物体的深度感知问题,显著提高深度图的完整性和清晰度。
本研究提出了一种名为Ross3D的重构视觉指令调优方法,旨在解决大规模三维视觉-语言数据集的缺乏问题。该方法通过三维视觉监督,提升了三维场景理解的性能,并展示了未标记三维数据的潜力。
本研究分析了扩散模型在三维视觉中的应用,解决了效率和可扩展性的问题,尤其是提升了从二次数据恢复三维场景的准确性。通过优化计算效率和大规模预训练,显著提升了三维视觉任务的表现。
完成下面两步后,将自动完成登录并继续当前操作。