华为与高校合作推出WorldGrow模型,能在30分钟内生成272㎡的室内场景,并支持1800㎡的大型场景。该技术通过精准数据处理、无缝拼接和粗到精的生成策略,实现高分辨率和真实感的室内场景生成,效率是同类技术的6倍。
多模态大语言模型(MLLMs)在2D视觉理解方面表现优异,但在3D空间推理上仍存在局限。本文提出了新的监督微调数据集CA-VQA及评估基准,专注于室内场景,展示了其在训练MM-Spatial模型方面的有效性,显著提升了3D空间理解能力,并与专用单目深度估计模型的深度感知能力相当。
杭州的群核科技发布了专注于室内场景空间一致性的空间大模型,解决了虚拟与现实的技术壁垒。开源的SpatialLM1.5和SpatialGen子模型分别实现了真实感漫游和空间语言理解,推动了空间智能的发展。
本研究提出了一种新颖的神经上下文场景图方法,旨在帮助机器理解未见或嘈杂的三维环境中的场景上下文。该方法通过提取和对齐场景区域的语义和几何信息,提高了在复杂室内场景中识别类比和转移轨迹的能力,具有在机器人和增强现实/虚拟现实中的应用潜力。
本研究提出了BelHouse3D数据集,解决了室内场景语义分割中缺乏真实3D基准数据集的问题。该数据集基于比利时32所房屋的真实数据,构建了合成点云数据,推动了3D点云语义分割模型的发展。
本研究提出了一种新方法,解决了当前技术在室内场景中处理间接照明阴影的不足。通过生成阴影和无阴影图像,创建了30,000对图像的数据集。结合语义和几何先验的创新网络,使阴影移除效果显著提升。
本论文介绍了一种名为ISO的新方法,用于预测室内场景的占据情况。ISO利用预训练的深度模型实现准确的深度预测,并引入了双特征视线投影模块,增强了三维体素特征的学习。同时,作者还介绍了Occ-ScanNet,一个用于室内场景的大规模占据基准。实验结果表明,该方法达到了最先进的性能。
该论文介绍了一种名为ISO的新方法,用于预测室内场景的占据情况。该方法利用深度模型进行准确的深度预测,并引入了双特征视线投影模块来增强学习。实验结果表明,该方法达到了最先进的性能。
PanDORA是一种室内场景高动态范围的全景双观察者辐射采集系统,使用两个360度相机同时采集普通曝光和快速曝光的视频,结合基于NeRF的算法重建了室内场景的全高动态范围辐射。
本文提出了一种室内场景外观分解的生成模型,通过内在图像扩散和概率形式处理外观分解的挑战。实验证明该方法在材料估计方面的性能优于现有方法。
本文介绍了一种名为AiSDF的在线有符号距离场(SDF)重建框架,可推断室内场景结构并生成显式平面地图,同时增强细节并显式重建结构。
使用通用扩散模型联合建模室内和室外场景,处理尺度模糊,并推广到训练数据中有限的相机内参。DMD方法在零样本室内数据集上减少25%,在零样本室外数据集上减少33%。
本文提出了一种高效的多视角逆向呈现方法,用于重建室内场景的光照和材质。通过Texture-Based Lighting (TBL)实现直接光照和间接光照的紧凑表示,并提出了预计算辐照度的混合光照表示。通过材质优化策略消除材质歧义。实验结果表明该方法优于现有方法,并可应用于增强现实。
本文介绍了一种通过机器人在室内场景中有目的地交互以建立室内场景的可动模型的方法,并引入了一个名为 Ditto in the House 的交互感知方法。该方法通过可行性预测发现可能的可动物体,并从每次交互前后的视觉观察中推断出其可动性质。
该研究提出了一种基于3D点云的局部扫描方法,用于自动补全物体和场景。通过特定的编码器-解码器结构和新型层的使用,该方法在对象和室内场景自动补全任务中表现出优异性能,提高了技术水平。
完成下面两步后,将自动完成登录并继续当前操作。