小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI
Galaxea G0.5——升级“VLA自回归建模”范式:摒弃VLM上添加动作专家的模式,而是构建统一模型,用一套权重,在同一个自回归token序列中同时生成推理与动作(含VLA-0的详解)

星海图提出的G0.5模型将视觉语言模型与动作生成统一为单一自回归序列,通过共享权重实现推理与动作的耦合,提升机器人控制效率。该模型采用可学习的动作分词器和视觉记忆模块,优化动作生成过程,减少离散化负担,能够在零样本条件下分解任务,直接生成动作,增强对复杂场景的适应能力。

Galaxea G0.5——升级“VLA自回归建模”范式:摒弃VLM上添加动作专家的模式,而是构建统一模型,用一套权重,在同一个自回归token序列中同时生成推理与动作(含VLA-0的详解)

结构之法 算法之道
结构之法 算法之道 · 2026-06-04T10:18:09Z
τ0-WM——智元的视频-动作世界模型:组合“遥操、umi、人类第一人称视角”数据,未来视觉Latent助力动作生成,然后重新加噪去噪,若自洽取表现最好者直接执行,否则模拟推演找出最佳视觉指引重新生成

研究者提出了一种名为τ0-World Model(τ0-WM)的统一视频-动作世界模型,旨在提升机器人操作的预测能力。该模型结合视频预测、动作生成和任务评估,利用27,300小时的多样化数据进行训练。τ0-WM通过共享的预测网络,提供视频动作模型和动作条件视频模拟器两个接口,优化机器人在执行前的决策过程。

τ0-WM——智元的视频-动作世界模型:组合“遥操、umi、人类第一人称视角”数据,未来视觉Latent助力动作生成,然后重新加噪去噪,若自洽取表现最好者直接执行,否则模拟推演找出最佳视觉指引重新生成

结构之法 算法之道
结构之法 算法之道 · 2026-06-01T04:30:18Z
GraspVLA——在互联网数据和十亿级规模合成动作数据SynGrasp-1B上预训练的抓取基础模型:基于渐进式动作生成PAG技术

GraspVLA是一种基于十亿级合成抓取数据集的机器人抓取模型,结合视觉语言模型和动作生成机制,提升了抓取技能的泛化能力。该模型通过渐进式动作生成方法,实现了仿真到现实的迁移,展现出优异的零样本性能。

GraspVLA——在互联网数据和十亿级规模合成动作数据SynGrasp-1B上预训练的抓取基础模型:基于渐进式动作生成PAG技术

结构之法 算法之道
结构之法 算法之道 · 2026-01-06T15:36:00Z

北大和人大团队在通用人形机器人动作生成领域取得突破,推出百万规模数据集MotionLib和动作生成模型Being-M0,实现复杂人类动作向多类型机器人迁移,提升跨平台适配能力。

百万规模数据集打造人形机器人通用大模型,实现精细动作跨平台、跨形态动作迁移丨北大人大联合发布

量子位
量子位 · 2025-05-16T03:49:41Z

本研究提出R-Lodge模型,解决生成舞蹈模型中表现一致性不足的问题,通过舞蹈校准技术和递归序列表示学习,显著提升舞蹈动作的一致性。

Dance Calibration Based on Recursive Convolutional Blocks to Enhance Dance Consistency

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-02-03T00:00:00Z
李飞飞团队统一动作与语言,新的多模态模型不仅超懂指令,还能读懂隐含情绪

研究团队提出了一种新型多模态语言模型,能够同时处理音频和文本输入,并生成相应的动作。该模型统一了人类动作的言语和非言语语言,尤其在数据稀缺情况下展现出优异的动作生成和理解能力。

李飞飞团队统一动作与语言,新的多模态模型不仅超懂指令,还能读懂隐含情绪

机器之心
机器之心 · 2024-12-18T05:40:04Z

本研究提出了一种新的粗到细自回归策略学习框架(CARP),旨在提高机器人视觉运动策略学习的效率和灵活性。该框架通过多尺度表示学习和细化预测两个阶段,显著提升了动作生成的精度和流畅性,推理速度提高了10倍,并实现了竞争性的成功率。

CARP: Visuomotor Policy Learning Based on Coarse-to-Fine Autoregressive Prediction

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-12-09T00:00:00Z

文章介绍了OmniH2O人形机器人,通过语音指令和预训练的文本到人体动作生成扩散模型(MDM)来控制动作。MDM利用文本提示生成多样化动作,体现文本到动作的多对多映射。其目标是在特定条件下合成人体动作,支持多种输入。扩散建模采用马尔可夫噪声过程,并使用几何损失正则化生成自然连贯的动作。

从MDM、RobotMDM到UC San Diego的Exbody(含Exbody 2)——人体运动扩散模型:赋能机器人的训练

结构之法 算法之道
结构之法 算法之道 · 2024-10-11T15:25:20Z

本研究提出了一种轨迹感知主要流形框架,旨在恢复流形骨干并生成样本。通过内在维度正则化,该框架实现了紧凑的流形表示和少样本图像生成。实验结果表明,该方法在分类准确性和样本生成方面表现优越,尤其在复杂文本描述下的动作生成任务中。

运动流动基元用于语言引导的轨迹生成

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-07-29T00:00:00Z

本文介绍了基于扩散模型的人体动作生成方法,重点在于细粒度控制、语义对齐和高质量合成。研究提出的新算法GMD和LGTM显著提升了文本驱动的动作生成效果,尤其在复杂描述下表现优越。通过层次化和多阶段流程,解决了语义差异问题,实现了更准确的动作生成。

基于本地动作引导的运动扩散模型用于文本到动作生成

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-07-15T00:00:00Z

本研究提出了基于扩散模型的动作生成框架ReMoDiffuse,通过结合检索机制改善去噪过程,提升文本驱动动作生成的多样性。相关模型如MoDiff、MotionDiffuse和CrossDiff在运动合成和预测方面表现优异,能够生成复杂的人类运动,适应实时命令,展现出强大的鲁棒性和生成质量。

Recurrent Flow Diffusion for Human Motion Generation

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-06-11T00:00:00Z

本研究介绍了CameraCtrl模型,通过精确控制相机姿态提升T2V模型的可控性和泛化性。结合三维相机运动和多模态变压器,能够有效生成视频。提出的协作视频扩散(CVD)框架通过跨视频同步模块提高了不同相机轨迹下视频的一致性。此外,CoMo模型在动作生成和编辑方面表现优异,VideoComposer模型实现了合成视频的条件控制。研究还提出了Direct-a-Video和COMD模型,增强了用户对对象和相机运动的控制能力。

CamCo:可控相机的三维一致的图像到视频生成

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-06-04T00:00:00Z

本文探讨了基于文本描述生成3D人体动作的方法,提出了多角度注意机制和TEMOS框架,利用变压器实现高质量动作生成。实验结果表明,该方法在多个数据集上优于现有技术,能够根据文本条件生成多样化的动作序列。

文本控制的运动短蓰:基于文本指导的人体运动时序定位

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-04-17T00:00:00Z

本文介绍了一种基于文本描述生成多样3D人类动作的方法,提出了TEMOS框架,利用变分自编码器生成高质量动作序列。研究表明,该框架在多个基准测试中表现优越,结合语言结构和上下文推理模块,提升了动作生成的精确度和多样性。

在场景中根据文本控制生成人类互动动作

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-04-16T00:00:00Z

该研究提出了多种基于扩散模型的视频和动作生成方法,包括可控运动扩散模型(COMODO)和RAVE视频编辑技术,显著提高了生成质量和多样性,适用于人机协作和视频编辑等场景。

EchoReel: 提升现有视频扩散模型的动作生成能力

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-03-18T00:00:00Z

本文提出了一种使用多角度注意机制的两阶段方法,通过生成变压器实现文本驱动的运动生成,实现了精细合成和动作生成。实验证明该方法优于现有技术。

语义增强:用增强的文本线索提升动态生成

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2023-10-31T00:00:00Z
  • <<
  • <
  • 1 (current)
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
友情链接: MOGE.AI 九胧科技 模力方舟 Gitee AI 菜鸟教程 Remio.AI DeekSeek连连 53AI 神龙海外代理IP IPIPGO全球代理IP 东波哥的博客 匡优考试在线考试系统 开源服务指南 蓝莺IM Solo 独立开发者社区 AI酷站导航 极客Fun 我爱水煮鱼 周报生成器 He3.app 简单简历 白鲸出海 T沙龙 职友集 TechParty 蟒周刊 Best AI Music Generator

小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码