本研究解决了在稀疏视点条件下,传统的3D高斯散布(3DGS)在场景重建中效果不佳的问题。我们提出了Dust-GS框架,通过创新的点云初始化技术,即使在输入数据稀疏的情况下也能保持高效。实验结果表明,Dust-GS在稀疏输入场景重建质量上超越了传统方法,展示了显著的改进和潜在影响。
本文提出了一种基于3D高斯喷洒的稀疏训练方法,旨在提高三维重建的一致性和渲染质量。通过结合深度先验和显式约束,实验结果显示该方法在MipNeRF-360数据集上优于传统方法,并在内存和效率上有显著提升。此外,研究探讨了密度控制策略和自增强高斯喷洒技术,展示了在稀疏视角下的优越性能。
本文介绍了一种新型后投影技术,通过三次散射空间时间流形重建隐藏几何形状,提升了非直视重建的速度和质量。同时,研究提出了基于单光子激光雷达和神经渲染的多视角视频合成方法,有效恢复复杂3D形状和场景特征,适用于自动驾驶和机器人技术等领域。
本研究提出了一种新颖的室外机器人自定位方法,利用机载摄像头和卫星图像,克服视角变化的挑战。通过检测一致的关键点和深度特征,该方法在动态环境中提升了感知能力,并在多个数据集上验证了其优越性,准确性显著高于现有方法。
Gear-NeRF 使用语义信息和动态对象追踪技术解决了 NeRF 模型在计算资源受限和场景语义理解方面的局限性,实现了逼真的动态场景渲染和新视角追踪。
本文提出了一种新方法,通过视点和极化数据分离漫反射与镜面反射,从而恢复物体的折射率和三维形状。结合深度学习与偏振成像,该方法能够在正面闪光下高效估计物体形状,尤其在服装人体三维形状估计方面展示了极化光的应用潜力。
不加强实境应用中的动画人型化身是不可能的。我们提出了一种基于 HINT 的算法,能够从有限的视角学习到详细和完整的人体模型,通过引入对称先验、正则化约束和大型人体数据集提供的训练线索来解决传统方法中受限于视角可用性的问题,从而使我们的方法能够重构完整的人体,即使只有少数视角,与先前最先进算法相比,性能提高了 15% 以上的峰值信噪比。
本文探讨了多种基于深度强化学习的自适应视频流算法,旨在优化用户体验和资源消耗。研究表明,这些算法在360度视频、8K分辨率流媒体和无人机实时视频传输中优于传统方法,显著提升了视频质量和带宽效率。
本研究提出了一种新型深度-时间感知视觉地点识别系统,解决了视角和外观变化带来的识别问题。通过深度过滤关键点序列和改进的视觉定位方法,显著提升了识别精度。同时,研究探讨了基于地图信息的目标检测算法,并提出了细粒度的室外机器人自定位方法,验证了其在动态环境中的有效性。
本文介绍了一种利用状态不变性来学习物体识别和检索的方法,通过新的数据集ObjectsWithStateChange捕捉物体图像中的状态和姿态变化。作者提出了一种增强模型捕捉微细变化物体特征的课程学习策略,以提高在具有状态变化的微细任务上的性能。
本文介绍了全景神经辐射场模型(PERF),它通过单个全景图训练,实现了360度全景图的新视角合成。该方法在复杂场景中的3D漫游中表现出优越性,并可应用于全景图转3D、文本转3D和3D场景风格化等实际应用中。
本文介绍了一种新的自监督表征学习方法,通过结合有区分度的自监督特征和三维理解,以及弱几何球面先验,来提取具有挑战性的图像特征。该方法在训练过程中注入了信息丰富的几何先验,能够更好地考虑重复部分和对称性误差。实验结果表明,该方法在区分对称视图和重复部分方面表现出色,并且能够推广到未见类别的数据集上。
本论文提出了一种神经人体表现捕捉和渲染系统,实现高质量的几何和纹理重建,尤其在人体物体交互场景下。通过分层场景解耦策略,进行体积重建和神经渲染人和物体,提出了交互感知的人-物捕捉方案,以人为重点的物体跟踪,实现了高质量的几何和纹理重建。
本文介绍了一种名为MVPSNet的快速通用的解决多视图光度立体问题的方法。该方法通过特征提取网络结合不同光照条件下的图像,从阴影线索中提取几何特征用于立体匹配。作者通过介绍一种新的人工合成数据集sMVPS来训练该方法,并展示了在纹理缺失区域中提取特征的有效性。结果表明,该方法的重建结果与最先进的MVPS方法PS-NeRF相似,但推理速度快411倍,具有一般化的可训练能力。
该文提出了一种基于可解释的Takagi-Sugeno-Kang模糊系统的多视图模糊表示学习方法,能够将多视图数据转化为高维模糊特征空间,并同时探索视图之间的共同信息和每个视图的特定信息。该方法还提出了一种新的基于L_(2,1)-norm回归的正则化方法,以挖掘视图之间的一致性信息,并通过拉普拉斯图保持数据的几何结构。实验结果表明,该方法在多个基准多视图数据集上具有优越性。
该文介绍了一种名为MMICL的模型,用于解决图像与文本交叉多模态提示的问题。该模型能够适应用户真实应用中复杂的提示,包括多模态上下文与交叉的图像和文本、每个图像的文本参考以及具有空间、逻辑或时间关系的多图像数据。MMICL 取得了新的最先进的零样本和少样本性能,成功缓解了视觉-语言模型中的语言偏差问题。
大一时候就接触了《程序员》这本杂志,不过当时眼界很浅,浮光掠影的看了一点,觉得都是业界信息,对自己没什么用处。 今年开学后,忙忙碌碌的过了一学期,忙着jav a和j2ee的网络学习,ssl的开发,还得边带着学linux,很是吃力,但想到9个月后就要找工作了,不得不逼着自己去做。以至于宿舍的同学都看不到我,电脑也一 个星期没回宿舍,都扔在工作室了。 忙碌的生活让我很不适应,不知道自己投资的方向是不是正确的。
完成下面两步后,将自动完成登录并继续当前操作。