小红花·文摘

$GigaBrain-0——通过世界模型GigaWorld增强VLA的泛化能力：基于RGBD输入建模，及通过具身CoT增强推理能力$

GigaBrain-0——通过世界模型GigaWorld增强VLA的泛化能力：基于RGBD输入建模，及通过具身CoT增强推理能力

结构之法算法之道 ·

本研究提出了Any6D框架，旨在解决新场景中未知物体的六维姿态估计问题。该方法仅需一张RGB-D锚图像，通过对象对齐过程显著提高了姿态准确性和规模估计，并在多个复杂数据集上表现优异。

Any6D: Model-free 6D Pose Estimation of Novel Objects

BriefGPT - AI 论文速递 ·

本文提出了GeoFlow-SLAM，一种针对动态环境的RGBD-惯性SLAM方法。通过结合几何一致性和四足里程计约束，显著提升了特征匹配效果，改善了传统SLAM在纹理稀缺环境中的表现，并在多个公开数据集上取得最佳结果。

GeoFlow-SLAM: A Robust Tight-Coupled RGBD-Inertial Fusion SLAM for Dynamic Quadrupedal Robots

BriefGPT - AI 论文速递 ·

本研究提出了SurgSora框架，旨在解决现有医疗视频生成模型在可控性和真实性方面的不足。该框架通过三个模块实现手术视频的精确控制，实验结果表明其优于现有方法，具有推动医疗教育和研究的潜力。

SurgSora: A Decoupled RGBD-Flow Diffusion Model for Controllable Surgical Video Generation

BriefGPT - AI 论文速递 ·

本文介绍了多种基于 Transformer 的网络模型，旨在提高 RGB-D 语义分割和特征匹配的效率与准确性。AsymFormer 优化了计算资源和特征融合，实现了实时性能和高准确度；DFormer 解决了 RGB 和深度信息编码不匹配的问题，表现优于现有方法；HAFormer 结合 CNN 和 Transformer 的优势，在轻量级语义分割中取得了显著成果。这些模型在多个数据集上均表现出色。

RoadFormer+: 通过尺度感知信息解耦和先进的异构特征融合实现 RGB-X 场景解析

BriefGPT - AI 论文速递 ·

本文提出了一种新的端到端算法PoCo，用于室内RGB-D场所识别，能够从噪声点云中提取全局描述符，提升识别性能。实验结果表明，PoCo在ScanNet-PR和ARKit数据集上超越了现有最佳结果，验证了其在实际环境中的有效性。

CSCPR: 跨源上下文室内 RGB-D 地点识别

BriefGPT - AI 论文速递 ·

本研究提出了FloorNet算法，利用深度神经网络技术重建室内地图，通过RGBD流图像数据提取特征，提升室内平面图重建的准确性，并探讨了多种方法解决房间布局重建问题，显著提高了重建质量和性能。

FRI-Net：基于房间级隐式表示的楼层规划重建

BriefGPT - AI 论文速递 ·

使用单个低成本 RGBD 摄像头的生物力学方法，可提供高精度的上肢运动学重建和全面上肢生物力学研究的潜力。

使用单个 RGBD 相机的实时、准确及开源的上肢肌肉骨骼分析

BriefGPT - AI 论文速递 ·

本文介绍了一种新型点云配准算法，通过多尺度双向融合实现更准确的对应估计，显著提升了在ScanNet和3DMatch数据集上的性能，尤其在室内外场景中表现优异。

RGBD-Glue: 强鲁棒性 RGB-D 点云配准的通用特征融合

BriefGPT - AI 论文速递 ·

该研究提出了RD3D和C2F-Net等深度学习模型，旨在提高RGB-D显著目标检测的准确性和效率。这些模型通过特征融合、注意力机制和新颖的网络结构，在多个基准数据集上超越了现有方法，有效解决了伪装目标检测和模态不兼容问题。

深度唤醒：一种 RGB-D 伪装物体检测的深度 - 感知 - 注意力融合网络

BriefGPT - AI 论文速递 ·

本文提出了一种新的RGB-D相对位姿估计方法，适用于小重叠或非重叠扫描，能够输出多个相对位姿。该方法结合3D感知验证，增强了鲁棒性，并在处理未见物体时表现出色。通过卷积神经网络和深度学习技术，提高了3D检测的准确性和速度。

DVMNet: 计算超越假设的未知物体的相对位姿

BriefGPT - AI 论文速递 ·

本文介绍了一种名为GS-SLAM的算法，该算法首次在SLAM系统中应用3D高斯表示，提升了效率与准确性。GS-SLAM通过自适应扩张策略重构场景几何并优化相机姿态，在多个数据集上表现出竞争力，实现了高质量的3D重建和语义分割，具备实时渲染能力，推动了SLAM技术的发展。

RGBD GS-ICP SLAM

BriefGPT - AI 论文速递 ·

本文介绍了基于去噪扩散概率模型的深度估计技术，如MonoDiffusion和RenderDiffusion。这些模型通过自监督学习和合成数据，提高了深度估计的准确性和鲁棒性，尤其在KITTI和Make3D数据集上表现突出。此外，研究还探讨了其在虚拟现实和增强现实中的应用潜力。

D4D: 一种提升单目深度估计的 RGBD 扩散模型

BriefGPT - AI 论文速递 ·

本文介绍了一种新颖的深度估计方法，通过跨模态特征整合和自监督学习，提升了RGB-D面部识别的准确性和鲁棒性。同时，研究提出了实时RGB-D物体检测模型，展示了在多种数据集上的优越性能，并探讨了自适应景观识别和无监督训练的潜力。

基于虚拟深度合成的自信感感知的 RGB-D 人脸识别

BriefGPT - AI 论文速递 ·

本研究提出了一种新的神经网络，用于在边缘和多尺度语境下进行显著对象检测。该方法在RGB-D显著性检测中表现出了清晰的检测边界和多尺度语境下的鲁棒性。实验结果显示，该方法在六个RGB和两个RGB-D基准数据集上均取得了最优性能。

基于显著性增强特征融合的多尺度 RGB-D 显著目标检测网络

BriefGPT - AI 论文速递 ·

该文介绍了6D姿态估计流程，并评估了汽车零件。作者发现性能不足，分析了RGB和RGB-D方法的比较和领域差异的影响。

汽车内部物流中机器人操纵的 6D 位姿估计的工业应用

BriefGPT - AI 论文速递 ·

DFormer是一种创新的RGB-D预训练框架，使用一系列RGB-D块进行编码，避免了现有方法中RGB预训练的主干网络对深度图中的三维几何关系进行不匹配的编码问题。使用轻量级的解码器头微调预训练的DFormer，在两个RGB-D分割数据集和五个RGB-D显着性数据集上实现了最新的最佳性能，代价为当前最佳方法的一半。

RoadFormer：RGB-Normal 语义道路场景解析的双工变换器

BriefGPT - AI 论文速递 ·

本文介绍了一种从野外拍摄的单目RGB视频学习高质量隐式三维头像的方法，通过参数化人脸模型驱动头像，实现用户控制的面部表情和头部姿态。该方法结合几何先验、3DMM的动态跟踪和神经辐射场，实现细粒度控制和光线真实感。实验结果表明，该方法能够重建高质量的头像，具有更准确的表情依赖细节，并在训练之外的表情和数量上具有优秀的渲染效果。

多功能人脸动画师：在 RGBD 空间中驱动任意的 3D 人脸形象

BriefGPT - AI 论文速递 ·