小红花·文摘

机器人视觉迎来新突破！蚂蚁灵波空间感知模型LingBot-Depth 2.0正式发布

量子位 ·

在线教程丨香港科技大学团队开源首个确定性视频深度框架DVD，零样本刷新 SOTA

HyperAI超神经 ·

深度估计准确率冲上0.9，Meta提出VLM³，论证视觉模型天生会学3D，以Qwen3-VL-4B为基础实现多任务的统一建模

HyperAI超神经 ·

C# OnnxRuntime 部署 DAViD 深度估计

dotNET跨平台 ·

三维视觉新突破：字节Seed推出DA3，实现任意视角重建视觉空间；7w+真实工业环境数据！CHIP 填补 6D姿态估计工业数据空白

HyperAI超神经 ·

三维视觉新突破：字节Seed推出DA3，实现任意视角重建视觉空间；7w+真实工业环境数据！CHIP填补6D姿态估计工业数据空白

HyperAI超神经 ·

本研究提出了JointDiT模型，通过扩散变换器增强RGB和深度的联合建模。采用自适应调度权重和不平衡时间步采样策略，JointDiT显著提升了图像生成和深度估计的性能，展现了在多种生成任务中的应用潜力。

JointDiT: Enhancing RGB-Depth Joint Modeling with Diffusion Transformers

BriefGPT - AI 论文速递 ·

该研究提出DFI-OmniStereo，一种新型全向立体匹配方法，利用预训练模型提升深度估计准确性。在不同环境和光照条件下表现优异，在Helvipad数据集上均方根误差降低约16%。

Boosting Omnidirectional Stereo Matching with a Pre-trained Depth Foundation Model

BriefGPT - AI 论文速递 ·

实时无人机视觉系统以111 FPS处理空中图像，同时识别物体和距离

DEV Community ·

UniVG：一种用于统一图像生成与编辑的通用扩散模型

Apple Machine Learning Research ·

本研究提出了Endo3DAC框架，旨在提高内窥镜三维场景重建中的自监督学习效率。通过冻结基础模型并训练新设计的GDV-LoRA，显著提升了深度和姿态估计的准确性，同时保持训练效率。

Learning to Efficiently Adapt Foundation Models for Self-Supervised Endoscopic 3D Scene Reconstruction

BriefGPT - AI 论文速递 ·

本研究提出了一种新型卷积神经网络USAM-Net，通过结合立体图像和语义分割图，提升自动驾驶和增强现实中的深度估计精度。实验结果表明，USAM-Net在多个指标上优于传统模型，显示出其在高精度深度数据需求中的潜力。

USAM-Net: A U-Net Based Network for Improving Stereo Matching and Scene Depth Estimation through Pre-trained Image Segmentation Networks

BriefGPT - AI 论文速递 ·

地瓜机器人与中科院合作提出MODEST框架，通过单张RGB图像实现透明物体的深度估计和语义分割，显著提升抓取精度并降低成本。该技术已入选ICRA 2025，适用于智能工厂等场景。

机器人视觉迎来新突破！蚂蚁灵波空间感知模型LingBot-Depth 2.0正式发布

在线教程丨香港科技大学团队开源首个确定性视频深度框架DVD，零样本刷新 SOTA

深度估计准确率冲上0.9，Meta提出VLM³，论证视觉模型天生会学3D，以Qwen3-VL-4B为基础实现多任务的统一建模

C# OnnxRuntime 部署 DAViD 深度估计

三维视觉新突破：字节Seed推出DA3，实现任意视角重建视觉空间；7w+真实工业环境数据！CHIP 填补 6D姿态估计工业数据空白

三维视觉新突破：字节Seed推出DA3，实现任意视角重建视觉空间；7w+真实工业环境数据！CHIP填补6D姿态估计工业数据空白

JointDiT: Enhancing RGB-Depth Joint Modeling with Diffusion Transformers

Boosting Omnidirectional Stereo Matching with a Pre-trained Depth Foundation Model

实时无人机视觉系统以111 FPS处理空中图像，同时识别物体和距离

UniVG：一种用于统一图像生成与编辑的通用扩散模型

Learning to Efficiently Adapt Foundation Models for Self-Supervised Endoscopic 3D Scene Reconstruction

USAM-Net: A U-Net Based Network for Improving Stereo Matching and Scene Depth Estimation through Pre-trained Image Segmentation Networks

透明物体也能被机器人抓起来了，单目的那种 | ICRA 2025

Accurate Depth Estimation Based on Latent Space Features of Deep Neural Networks

人工智能系统采用双分支架构为内窥镜图像添加深度感知

基于深度学习的深度估计系统文献综述

Relative Pose Estimation through Affine Corrections of Monocular Depth Priors

Depth Adaptation for Any Camera: Zero-Shot Metric Depth Estimation Based on Any Camera

V$^2$-SfMLearner: Learning Monocular Depth and Ego-motion for Multimodal Wireless Capsule Endoscopy

Cross-Perspective Completion Models as Zero-Shot Correspondence Estimators