华为与高校合作推出WorldGrow模型,能在30分钟内生成272㎡的室内场景,并支持1800㎡的大型场景。该技术通过精准数据处理、无缝拼接和粗到精的生成策略,实现高分辨率和真实感的室内场景生成,效率是同类技术的6倍。
多模态大语言模型(MLLMs)在2D视觉理解方面表现优异,但在3D空间推理上仍存在局限。本文提出了新的监督微调数据集CA-VQA及评估基准,专注于室内场景,展示了其在训练MM-Spatial模型方面的有效性,显著提升了3D空间理解能力,并与专用单目深度估计模型的深度感知能力相当。
杭州的群核科技发布了专注于室内场景空间一致性的空间大模型,解决了虚拟与现实的技术壁垒。开源的SpatialLM1.5和SpatialGen子模型分别实现了真实感漫游和空间语言理解,推动了空间智能的发展。
本研究提出了一种新颖的神经上下文场景图方法,旨在帮助机器理解未见或嘈杂的三维环境中的场景上下文。该方法通过提取和对齐场景区域的语义和几何信息,提高了在复杂室内场景中识别类比和转移轨迹的能力,具有在机器人和增强现实/虚拟现实中的应用潜力。
本研究提出了BelHouse3D数据集,解决了室内场景语义分割中缺乏真实3D基准数据集的问题。该数据集基于比利时32所房屋的真实数据,构建了合成点云数据,推动了3D点云语义分割模型的发展。
本文介绍了一种深度反渲染框架及多个生成模型,旨在提升室内场景的渲染质量和真实感。研究包括Zero123++模型用于生成一致的多视图图像,ZeroNVS模型用于单图像新视图合成,以及ZeroShape模型用于三维形状重建。通过新技术和训练策略,解决了光照、几何和材料理解的问题,提升了图像合成的真实感和效率。
本研究提出了一种新方法,解决了当前技术在室内场景中处理间接照明阴影的不足。通过生成阴影和无阴影图像,创建了30,000对图像的数据集。结合语义和几何先验的创新网络,使阴影移除效果显著提升。
本文介绍了一种深度反渲染框架,旨在重建室内场景并估计形状、光照和面反射率,提升渲染质量。研究提出了多种实时神经辐射缓存和反渲染算法,显著降低噪声,提高性能,解决模糊问题,实现高效的3D重建和渲染。
该研究提出了一种新算法,能够从单张全景图像中预测房间布局,适用于多种布局形式。通过消失点对图像进行对齐,预测多个布局元素,实现高速度和准确率。研究还介绍了多个数据集和模型,旨在生成高质量的室内场景和家具布局,提升用户设计体验。
本文提出了一种深度反渲染框架,旨在重建室内场景的形状、光照和反射率,以提升渲染质量,广泛应用于增强现实。研究采用基于物理的可微渲染器和混合光照表示,从单张图像中实现几何和光照预测,生成逼真效果。通过扩散模型和逆渲染技术,成功恢复高动态范围照明和物体材料,展现出在3D编辑和真实感方面的优势。
本文介绍了一种基于数据驱动的室内场景3D重建方法,利用CAD模型表示物体和墙壁布局。研究提出了多种技术,如3D线段提取平面、端到端语义重建、蒙特卡罗树搜索算法和Transformer架构,显著提升了室内布局估计和图形生成的准确性与质量。
本文提出了一种深度反渲染框架,旨在重建室内场景的形状、光照和面反射率,以提升渲染质量,广泛应用于增强现实。研究结合了多视角光度立体方法和高效的逆向呈现技术,实现了物理合理的材质编辑和新视角合成,实验结果表明其在定量和定性上优于现有方法。
本文介绍了多种基于神经隐式场的SLAM方法,旨在提升室内场景的跟踪和地图生成能力。这些方法通过引入语义信息和优化策略,在动态环境中实现高精度的相机跟踪和地图重建,适用于未知和复杂环境,展现出良好的实时性能和鲁棒性。
本文提出了一种新的室内场景语义分割方法,通过3D到2D框架提取和增强特征,结合自监督学习和对抗训练,显著提升了无监督转移的3D特征质量,并展示了在开放词汇分割和背景/前景发现中的应用潜力。
本文介绍了多种基于神经网络的3D场景重建方法,旨在解决室内场景重建中的误差问题。通过不确定性建模和重要性引导采样等技术,提升了细节重建效果。实验结果表明,这些方法在复杂场景的重建和编辑方面优于现有技术。
本文提出了一种基于扩散模型的室内场景外观分解生成模型,通过单视图输入采样多种材质解释,显著提高了反照率和粗糙度预测的准确性。研究展示了该模型在合成和真实数据集上的有效性,并介绍了新型的三维场景表示方法和去噪框架,支持高精度的三维重建与生成。
本文介绍了多种基于神经隐式表面的3D重建方法,如DeepSDF、ClusteringSDF和MV-DeepSDF。这些方法通过学习有符号距离函数(SDF)实现高质量的形状表示和重建,尤其在复杂场景和自动驾驶数据集上表现优异。此外,研究提出了新框架AiSDF和H2O-SDF,增强了室内场景的细节重建和对象识别能力。
使用通用扩散模型联合建模室内和室外场景,处理尺度模糊,并推广到训练数据中有限的相机内参。DMD方法在零样本室内数据集上减少25%,在零样本室外数据集上减少33%。
本文提出了一种高效的多视角逆向呈现方法,用于重建室内场景的光照和材质。通过Texture-Based Lighting (TBL)实现直接光照和间接光照的紧凑表示,并提出了预计算辐照度的混合光照表示。通过材质优化策略消除材质歧义。实验结果表明该方法优于现有方法,并可应用于增强现实。
本文介绍了一种通过机器人在室内场景中有目的地交互以建立室内场景的可动模型的方法,并引入了一个名为 Ditto in the House 的交互感知方法。该方法通过可行性预测发现可能的可动物体,并从每次交互前后的视觉观察中推断出其可动性质。
完成下面两步后,将自动完成登录并继续当前操作。