结构之法算法之道 ·

斯坦福iDP3——改进3D扩散策略以赋能人形机器人的训练：不再依赖相机校准和点云分割(含DP3的详解)

💡 原文中文，约6800字，阅读约需17分钟。

📝

内容提要

在10月23日的长沙程序员节开幕式上，开发者被邀请来长沙工作与创业。文章介绍了改进的3D扩散策略iDP3和OKAMI人形机器人，后者通过单个RGB视频模仿人类操作，并结合视觉模型识别物体，提升在不同环境中的操作能力。

🎯

关键要点

在长沙程序员节开幕式上，开发者被邀请来长沙工作与创业。
文章介绍了改进的3D扩散策略iDP3，旨在提升人形机器人的操作能力。
OKAMI人形机器人通过单个RGB视频模仿人类操作，结合视觉模型识别物体。
OKAMI使用两阶段过程将人类动作重定向到人形机器人，以适应不同环境中的对象位置。
第一阶段处理视频生成参考操作计划，第二阶段利用该计划合成人形机器人的动作。
OKAMI的算法能够系统性地推广到各种空间布局的物体和场景杂乱中。
OKAMI通过识别与任务相关的物体和重建人体动作来生成参考计划。
在测试时，OKAMI能够在不同视觉条件下定位任务相关的对象并重定向人类动作。
OKAMI的训练过程使用行为克隆算法，通过收集成功轨迹的数据集来训练神经网络策略。
实验结果表明，OKAMI在硬件设置上表现良好，能够有效模仿人类的操控技能。

❓

延伸问答

iDP3策略的主要目标是什么？

iDP3策略旨在提升人形机器人的操作能力，减少对相机校准和点云分割的依赖。

OKAMI人形机器人如何模仿人类操作？

OKAMI通过单个RGB视频模仿人类操作，结合视觉模型识别物体，并重定向人类动作到机器人上。

OKAMI的训练过程是怎样的？

OKAMI的训练过程使用行为克隆算法，通过收集成功轨迹的数据集来训练神经网络策略。

OKAMI在不同环境中如何定位任务相关对象？

OKAMI在测试时通过识别与任务相关的物体并重建人体动作来定位对象，适应不同的视觉条件。

OKAMI的算法有什么优势？

OKAMI的算法能够系统性地推广到各种空间布局的物体和场景杂乱中，提升了操作的灵活性。

OKAMI如何处理视频生成参考操作计划？

OKAMI通过处理视频生成参考操作计划，识别任务相关对象并重建人类动作，以便机器人完成任务。

🏷️

继续阅读

云台相机 2026 大乱斗，它到底怎么来的，又去往哪里？｜硬哲学
2016年，苹果发布AirPods，开启了TWS耳机热潮。2018年，大疆推出Osmo Pocket云台相机，改变了手持摄影市场。尽管初期反响平平，但其便...
语音增强中的自监督学习：从无配对训练到基础模型先验
语音增强（SE）面临数据、目标和任务等挑战，自监督学习（SSL）逐渐成为解决方案。SSL通过未配对数据学习和生成式方法，重塑了SE的训练目标。研究表明，S...
从任意视角探索场景：3D体积视频技术突破意味着3D流媒体可能很快成为现实
布朗大学研究人员推出了名为PackUV的3D体积视频处理方法，旨在实现可存储、流式传输的逼真3D视频。该技术通过多台摄像机拍摄场景，并利用算法重建三维空间...
早报｜微软发布Windows「梦中神机」/腾讯云DeepSeek-V4最高降价97.5%/徕卡相机或被中国资本收购
微软在Build 2026大会上发布了七款自研AI模型，涵盖推理、代码、图像和语音等领域，并推出了强大算力的开发者设备“梦中神机”。OpenAI扩展Cod...
微软Surface Laptop Ultra和Surface Dev Box的首次亮相
微软推出了Surface Laptop Ultra和Surface RTX Spark Dev Box，均搭载Nvidia的RTX Spark芯片。Sur...
谷歌搜索提升你的二手和复古购物的五种方式
2026年复古潮流再度兴起，用户对“复古”和“如何淘货”的搜索兴趣达到新高。借助Google工具，用户可以通过AI规划二手购物，使用Google Lens...