AI驱动的视频生成技术取得显著进展,但在控制和编辑方面仍面临挑战。NVIDIA推出的DiffusionRenderer技术,通过智能数据策略和双管齐下的方法,提升了视频渲染质量和编辑能力,为创作者提供了统一的3D场景处理框架。
本文提出了一种新型密集语义SLAM系统GSFF-SLAM,克服了现有系统在稀疏和噪声信号下的局限性。实验结果表明,该方法在跟踪精度和渲染质量上优于以往,mIoU语义分割性能达到95.03%,速度提升2.9倍。
本研究提出了一种验证引导高斯数量控制(VGNC)方法,旨在解决稀疏视图3D重建中的过拟合问题。VGNC通过生成验证图像来优化高斯数量,显著降低过拟合,提高渲染质量,减少高斯点数量,从而降低存储需求并加快训练与渲染速度。
本研究提出了Swift4D方法,旨在解决动态场景重建中的存储和训练时间问题。通过分离静态与动态元素,并采用多分辨率4D哈希映射,显著提升了渲染质量,训练速度提高了20倍,存储需求仅为30MB。
中科院自动化所研究团队提出的CityGaussianV2算法,旨在高效重建大规模复杂三维场景。该算法结合2DGS的优点,优化训练和压缩过程,显著提升几何精度和渲染质量,同时降低显存开销。实验结果表明,CityGaussianV2在多个数据集上表现优异,推动了大规模场景重建技术的发展。
本研究提出了一种混合熵模型HEMGS,旨在解决三维高斯点云模型的数据膨胀问题。该方法结合超先验网络与自回归网络,压缩效果提升约40%,渲染质量优于基准方法。
本研究提出了一种新系统,使用Open AI的Whisper替代传统音频特征提取模型,解决了实时谈话头像生成中的延迟问题。实验结果表明,Whisper提高了处理速度和渲染质量,增强了AI化身在采访者培训中的应用潜力。
本研究提出了一种基于物理的神经双向反射分布函数(PBNBRDF)模型,解决了材料外观模拟中的物理约束不足问题。通过施加亥姆霍兹对称性和能量消耗约束,显著提升了材料重建的视觉质量和色彩准确性,实验结果表明该方法能更真实地表示数据,改善渲染质量。
3D高斯喷墨(3DGS)是一种受欢迎的三维重建技术,Grendel是一个开源的分布式系统,可在多个GPU上并行计算3DGS参数,提高渲染质量。测试结果显示,在大规模、高分辨率场景的评估中,使用多个GPU可将PSNR从26.28提高到27.28。
NeLF-Pro是一种新方法,用于建模和重构不同自然场景中的光场。它使用局部光场特征探针和2D特征图进行参数化,并通过向量矩阵矩阵分解技术实现多级贴图表示和渲染。实验证明,NeLF-Pro提升了表示性能,同时保持紧凑建模,实现了更好的渲染质量和快速重构。
3D高斯喷墨(3DGS)是一种受欢迎的三维重建技术,Grendel是一个分布式系统,可以在多个GPU上并行计算3DGS参数,提高渲染质量。使用多个GPU的扩展3DGS参数,在大规模、高分辨率场景的评估中,测试PSNR从单个GPU的26.28提高到了使用16个GPU分布的27.28。Grendel是一个开源项目。
该文章介绍了一种新的稠密同时定位与建图(SLAM)方法,使用高斯斑点作为场景表示。该方法能够实时重建和渲染真实世界和合成场景,并通过新的策略扩展高斯斑点的应用。此外,还将高斯斑点扩展到编码几何并进行实验。该方法在渲染质量、重建性能和运行时间方面具有竞争力。
Event3DGS是一种利用事件相机的高时间分辨率和显式的基于点的表示来重建高保真度的3D结构的方法。通过稀疏感知的采样和渐进训练方法,可以获得更好的重建质量和一致性。实验证明,Event3DGS具有卓越的渲染质量,并且训练时间减少了95%以上,并且在渲染速度上具有数量级的提升。
本文提出了一种用可控的3D高斯模型表示的高保真度的头像模型,通过优化中性3D高斯模型和基于完全学习的MLP变形场捕捉复杂表情,并设计了几何引导初始化策略以确保训练过程的稳定性和收敛性。实验证明,在夸张的表情下实现了2K分辨率下的超高保真度渲染质量。
该研究使用变形的多层感知器(MLP)网络来捕捉动态偏移的高斯点,并通过哈希编码和小型MLP来表示点的颜色特征。他们引入了可学习的去噪掩模来消除场景中的噪点,并通过静态约束和运动一致性约束减轻点的运动噪声。实验证明该方法在渲染质量和速度上超过了现有方法,并显著减少了与3D-GS相关的内存使用。该方法适用于新的视角合成和动态建图等任务。
本研究提出了一种名为RadSplat的轻量级方法,用于复杂场景的鲁棒实时渲染。该方法通过使用辐射场作为先验和监督信号来优化基于点的场景表示,提高了渲染质量和鲁棒优化。同时,我们开发了一种新颖的剪枝技术,减少了点的数量且保持高质量,使场景表示更小、更紧凑,并具有更快的推理速度。此外,我们提出了一种新颖的测试时间滤波方法,进一步加快了渲染速度,并可以扩展到更大的场景。实验证明,我们的方法实现了900+帧每秒的复杂场景综合效果,达到了最先进水平。
我们提出了一种新型的神经场,使用了一般径向基函数进行信号表示。该方法相比于现有的神经场方法,能够更好地适应目标信号,提高径向基函数的通道能力,并且通过混合自适应的径向基函数和基于网格的径向基函数,继承了自适应性和插值平滑性,取得了比现有方法更高的精确度和紧凑性。在2D图像和3D有向距离场表示中的实验证明了我们方法的优越性,并且在神经辐射场重建方面,我们的方法实现了与现有方法相媲美的渲染质量,具有较小的模型大小和可比较的训练速度。
本文提出了4K4D方法,使用4D点云表示实现高分辨率、实时的视图合成。通过深度剥离算法从RGB视频中学习模型,实验证明该方法在1080p分辨率下以400FPS速度渲染DNA-Rendering数据集,在4K分辨率下以80FPS速度渲染ENeRF-Outdoor数据集,是之前方法的30倍快且达到最先进的渲染质量。
完成下面两步后,将自动完成登录并继续当前操作。