小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI
τ0-WM——智元的视频-动作世界模型:组合“遥操、umi、人类第一人称视角”数据,基于未来视觉Latent预测动作,然后重新加噪去噪,若自洽取表现最好者直接执行,否则模拟推演找出最佳视觉指引重新生成

研究者提出了一种名为τ0-World Model(τ0-WM)的统一视频-动作世界模型,旨在提升机器人操作的预测能力。该模型结合视频预测、动作生成和任务评估,利用27,300小时的多样化数据进行训练。τ0-WM通过共享的预测网络,提供视频动作模型和动作条件视频模拟器两个接口,优化机器人在执行前的决策过程。

τ0-WM——智元的视频-动作世界模型:组合“遥操、umi、人类第一人称视角”数据,基于未来视觉Latent预测动作,然后重新加噪去噪,若自洽取表现最好者直接执行,否则模拟推演找出最佳视觉指引重新生成

结构之法 算法之道
结构之法 算法之道 · 2026-06-01T04:30:18Z
RDT2——基于UMI数据实现零样本且跨本体的泛化:先训练VLM、后训练扩散动作专家、最后将扩散策略蒸馏为一步生成器(挑战叠衣服)

RDT2是一种新型机器人基础模型,旨在实现跨本体、物体和场景的零样本迁移能力。通过使用UMI数据集和三阶段训练策略,RDT2能够高效处理多样化的真实世界任务,提升机器人在未见物体和场景中的泛化能力。该模型在微调实验中表现优异,尤其在复杂操作和动态任务中,展现出显著的性能提升。

RDT2——基于UMI数据实现零样本且跨本体的泛化:先训练VLM、后训练扩散动作专家、最后将扩散策略蒸馏为一步生成器(挑战叠衣服)

结构之法 算法之道
结构之法 算法之道 · 2026-02-13T14:13:39Z

鹿明机器人CTO丁琰在媒体沟通会上讨论了具身智能数据采集的现状与挑战,强调数据质量对模型训练的重要性。他指出,许多团队未能成功训练模型是由于数据生成阶段的问题,而非训练过程。丁琰还介绍了UMI(通用操作接口)的概念及其在数据采集中的应用,强调高质量数据的必要性,并提出行业面临的成本和效率问题。

训具身模型遇到的很多问题,在数据采集时就已经注定了丨鹿明联席CTO丁琰分享

量子位
量子位 · 2026-01-08T12:20:41Z

本文介绍了UMI刷盘机器人通过手持夹爪进行数据收集的创新方法,详细解析了数据处理和SLAM管道的步骤,包括数据下载、视频处理、IMU数据提取和地图生成,旨在支持机器人动作恢复。

斯坦福UMI代码解析:刷盘机器人Universal Manipulation Interface代码的整体解读

结构之法 算法之道
结构之法 算法之道 · 2025-02-02T13:32:39Z

本文介绍了扩散策略在机器人视觉运动中的应用,强调其在多模态动作分布、高维输出空间和稳定训练方面的优势。扩散策略通过条件去噪生成机器人行为,结合闭环动作序列和视觉条件化,提升了动作一致性和实时推理能力。同时,文章探讨了Diff-Control的背景及其通过ControlNet整合状态信息以增强动作生成一致性的技术架构。

Diffusion Policy——斯坦福UMI所用的动作预测算法:基于扩散模型的扩散策略(从原理到其编码实现)

结构之法 算法之道
结构之法 算法之道 · 2024-11-09T13:53:57Z

在七月的线下营中,学员们复现了UMI,丁老师分享了fastumi的改进。UMI面临硬件成本高和SLAM算法复杂的局限。清华高阳团队尝试复现UMI,但效果不佳。研究表明,增加训练对象和环境数量能显著提升机器人泛化能力,尤其在低示范比例下表现突出。

机器人领域中的scaling law:清华高阳团队通过复现斯坦福UMI——探讨数据规模化定律(含UMI的复现关键)

结构之法 算法之道
结构之法 算法之道 · 2024-10-29T10:38:55Z

本文分析了UMI系统的缺点,并介绍了Fast-UMI的改进。UMI依赖特定硬件和复杂的SLAM技术,限制了灵活性和数据收集效率。Fast-UMI通过使用RealSense T265相机简化数据处理,消除了复杂校准需求,保持了设备与机器人系统的一致性,支持多种夹爪型号,提高了数据收集的便捷性和模型应用的广泛性。

Fast-UMI——改进斯坦福UMI的硬件:用RealSense T265替代SLAM且实现机械臂的迁移与平替

结构之法 算法之道
结构之法 算法之道 · 2024-10-01T07:32:54Z

本文解读了Columbia University、Toyota Research Institute、MIT联合发布的《Diffusion Policy:Visuomotor Policy Learning via Action Diffusion》论文,介绍了扩散策略的原理和优势。扩散策略通过学习梯度场将噪声细化为动作,准确建模多模态动作分布,容纳高维动作序列。文章还介绍了基于CNN和Transformer的扩散策略实现方法,并讨论了扩散策略在动作序列预测和训练稳定性方面的好处。

UMI——斯坦福刷盘机器人:从手持夹持器到动作预测Diffusion Policy(含代码解读)

结构之法 算法之道
结构之法 算法之道 · 2024-01-10T15:59:28Z

斯坦福大学研究团队开发了一款名为Mobile ALOHA的家务机器人,具有移动性、稳定性和全身遥控操作等特点。该机器人使用低成本全身远程操作系统进行数据收集,并通过有监督的行为克隆进行训练,成功率可达90%。研究者还开源了该机器人的软件和硬件部件。

模仿学习的集中爆发:从Dobb·E、Gello到斯坦福Mobile ALOHA/UMI、FMB、DexCap

结构之法 算法之道
结构之法 算法之道 · 2024-01-07T04:02:12Z
Umi-OCR–开源免费离线OCR文字识别软件

这篇文章介绍了一款免费的离线OCR软件,支持截屏、粘贴、批量导入图片等功能,无需安装,适用于Windows平台。文章提供了软件下载链接和使用说明。

Umi-OCR–开源免费离线OCR文字识别软件

柴郡猫
柴郡猫 · 2023-12-05T03:01:34Z
开源离线Umi-OCR

本文介绍了一个可离线使用的开源OCR软件Umi-OCR,支持截屏、批量导入图片,支持多国语言、合并段落、竖排文字等功能。软件提供了两种截图方式,可以识别图片中的文字,并将内容存储到txt文件中。

开源离线Umi-OCR

迷途小书童
迷途小书童 · 2023-06-26T16:00:19Z

我从大二开始就开始写博客了,当时只是觉得好玩,有兴趣,于是搜索了一番,决定用简单上手的hexo来做博客,顺便买了一个阿里云的学生服务器来放网站,那时候啥也不懂,没接触过Node,不会Js,前端也是一窍不通,linux倒是懂一些,可是网络技术一知半解。但随着我折腾来折腾去,逐渐摸索到了一些门道,也找到了一些乐趣,nginx各种配置啦,cdn加速、sll证书啦,自己搭建图床啦。 而迄今为止,我正...

基于React/umi/egg自建博客系统

Mereith's Blog
Mereith's Blog · 2022-09-29T08:37:37Z

Umi-OCR 是一款适用于 Win10 x64 平台的免费、离线 OCR 文字识别工具,基于 PaddleOCR,支持批量导入、读取剪贴板,可排除图片中水印区域,提取干净的文本。@Appinn 感谢

Umi-OCR – 免费的离线 OCR 文字识别软件[Windows]

小众软件
小众软件 · 2022-09-05T08:18:56Z

距离第一篇聊前端微服务的文章已经时隔大半年,很多人对此感兴趣. 今天我们就聊一聊,我们如何基于umi来打造一个更完善的前端微服务的子模块. 如果你用的是react以外的前端技术栈, 我的很多处理做法也可以应用在其他技术栈上. 希望对你也有所帮助. 优秀的umi框架 在前端中后台项目上,前端微服务化的需求相对是比较旺盛一些的. 说到中后台,很多企业都是基于antd的组件来构建自己的项目. 自去...

前端微服务化进阶1 - 基于umi的子模块方案

Alili丶前端大爆炸
Alili丶前端大爆炸 · 2019-04-13T22:17:36Z
微前端进阶 1 - 基于 Umi 的子模块解决方案

本文讨论了如何基于umi框架构建前端微服务子模块。通过与antd组件结合,提升项目的美观性和功能性。利用umi的插件机制与single-spa集成,实现独立开发和部署。文章提供了动态元素渲染、生命周期管理和全局变量处理的具体实现方法,旨在帮助开发者构建微服务架构。

微前端进阶 1 - 基于 Umi 的子模块解决方案

Alili丶前端大爆炸
Alili丶前端大爆炸 · 2019-04-13T22:17:36Z
  • <<
  • <
  • 1 (current)
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
友情链接: MOGE.AI 九胧科技 模力方舟 Gitee AI 菜鸟教程 Remio.AI DeekSeek连连 53AI 神龙海外代理IP IPIPGO全球代理IP 东波哥的博客 匡优考试在线考试系统 开源服务指南 蓝莺IM Solo 独立开发者社区 AI酷站导航 极客Fun 我爱水煮鱼 周报生成器 He3.app 简单简历 白鲸出海 T沙龙 职友集 TechParty 蟒周刊 Best AI Music Generator

小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码