BG-Triangle是一种新型的三维场景表示方法,结合了贝塞尔三角形和高斯模型,解决了3D Gaussian Splatting中的模糊问题。该方法通过不连续感知渲染技术提高了边界清晰度和渲染质量,且参数量较少,适合实时渲染。实验结果表明,BG-Triangle在感知质量上显著优于其他方法。
本研究提出了MMGDreamer,一个双分支扩散模型,克服了基于图的三维场景生成对文本输入的限制,显著提高了场景生成的可控性和视觉真实度。
中科院自动化所研究团队提出的CityGaussianV2算法,旨在高效重建大规模复杂三维场景。该算法结合2DGS的优点,优化训练和压缩过程,显著提升几何精度和渲染质量,同时降低显存开销。实验结果表明,CityGaussianV2在多个数据集上表现优异,推动了大规模场景重建技术的发展。
斯坦福团队提出的“场景语言”将自然语言转化为三维场景,结合程序语言、自然语言和神经网络,显著提升了AI生成和编辑3D场景的能力,展现了在游戏和建筑设计等领域的创新潜力。
本研究提出了EchoSegnet方法,结合预训练的2D音频视觉模型与三维场景表示,旨在提升复杂环境中音响物体的分割效果。
该研究提出了一种名为IB-planes的新方法,用于快速重建和生成三维场景。它通过动态分配容量捕捉图像细节,并利用去噪扩散框架,仅依赖二维图像学习三维场景的先验知识。研究还提出了避免简单三维解决方案的方法。模型在多个数据集上表现出色,实现了优异的生成、新视图合成和三维重建效果。
CompGS是一种高效的三维场景表示方法,通过紧凑的高斯形式大幅减少数据量。它采用混合结构,用少量锚点进行预测,并将大部分数据压缩为残差形式。还开发了速率约束优化方案,实现比特率和效能的最佳平衡。实验显示,CompGS在不影响准确性和渲染质量的情况下优于现有方法。代码将发布在GitHub上。
本研究通过引入VX-S3DIS数据集和RESSCAL3D++方法,解决了三维场景理解中获取与处理分开的局限性。提出了一种高效的联合获取与语义分割方式,大幅加速并降低成本,首次预测时间仅占总推理时间的7%。
本研究提出了一种新的神经场景表示方法IB-planes,能够准确地表示大型三维场景,并通过去噪扩散框架学习对这种表示的先验知识,支持三维重建和生成。该模型在真实和合成图像数据集上展示了优越的结果。
视频外推技术(VERT)能够让观众从新的视角观看预测的三维场景。通过将二维场景映射到三维点云,VERT能够高质量地渲染未来的视频。实验结果显示VERT在运动预测方面表现出优越性能。
本研究提出了一种新的神经场景表示方法IB-planes,能够准确地表示大型三维场景,并通过去噪扩散框架学习先验知识,支持三维重建和生成。该模型在真实和合成图像数据集上展示了优越的结果。
本文介绍了一种通过大型预训练的文本到图像模型实现对三维场景进行解缠的方法。通过重新排列具有空间先验的三维场景的部分,可以发现物体的存在,并且这些重排后的场景仍然是原场景的有效配置。通过联合优化多个 NeRFs,每个 NeRF 代表一个物体,以及一组将这些物体合成为场景的布局,成功地生成了分解为个体物体的三维场景。
该文章介绍了全景场景完成(PSC)任务,通过实例级别的信息产生对三维场景的更丰富理解。PSC利用基于蒙版的混合技术处理稀疏多尺度完成的非空体素,并提出了一种有效的集成方法来估计体素和实例的不确定性。实验证明,该方法在全景场景完成和不确定性估计方面优于所有基线算法。
该文介绍了使用NeRF方法学习动态三维场景的方法,为机器人外科手术系统提供了潜力。
完成下面两步后,将自动完成登录并继续当前操作。