小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI
银河通用LDA定义全域数据利用范式,跨本体世界动作大模型开启具身GPT-2时刻

银河通用推出的LDA-1B模型在具身智能领域实现了数据的统一利用,突破了传统模型的局限。该模型有效整合多种数据源,快速适应不同机器人,降低数据获取成本,推动了行业技术进步和产业化进程。

银河通用LDA定义全域数据利用范式,跨本体世界动作大模型开启具身GPT-2时刻

量子位
量子位 · 2026-04-29T02:23:06Z
LARYBench 发布:定义具身动作表征 ImageNet,首次度量从人类视频学习的泛化表征

本文介绍了LARYBench,一个用于评估隐式动作表征的基准系统,旨在提升机器人在不同环境中的泛化能力。LARYBench分析了大规模人类视频数据,提供超过一百万段标注视频,涵盖151种动作,支持多样化的机器人形态和操作场景。实验结果表明,通用视觉模型在动作泛化和控制精度上优于专门模型,强调了隐式动作表征的重要性。

LARYBench 发布:定义具身动作表征 ImageNet,首次度量从人类视频学习的泛化表征

美团技术团队
美团技术团队 · 2026-04-27T00:00:00Z
《Saros》是纯粹的动作天堂

《Saros》是芬兰开发商Housemarque为PS5推出的独占游戏,玩家扮演阿尔君,探索矿产丰富的星球Carcosa,面临时间循环和大量敌人。游戏以华丽的视觉效果和激烈的射击玩法为特色,提供丰富的武器和升级系统,挑战性与可玩性兼具,定于4月30日发售。

《Saros》是纯粹的动作天堂

The Verge
The Verge · 2026-04-24T07:00:00Z

距离《洛奇英雄传:反抗命运》(Vindictus: Defying...

以性感角色著称的《洛奇英雄传》,新作正卖力调整动作系统

游戏研究社
游戏研究社 · 2026-04-23T16:00:00Z
HTD——基于触觉预测的人形行走-操作框架:融合视觉、本体感知、力反馈、触觉,同时预测动作、未来手部关节受力、由EMA目标编码器监督的未来触觉潜变量

本文探讨了人形机器人在“行走-操作”任务中的挑战,提出了一种集成式全身操控系统,结合强化学习、VR遥操作和触觉感知。研究者开发了具身触觉梦境的Transformer(HTD),通过多模态学习提升机器人对接触状态的理解和反应能力,简化了学习过程,旨在提高人形机器人的操作能力和灵活性。

HTD——基于触觉预测的人形行走-操作框架:融合视觉、本体感知、力反馈、触觉,同时预测动作、未来手部关节受力、由EMA目标编码器监督的未来触觉潜变量

结构之法 算法之道
结构之法 算法之道 · 2026-04-23T10:29:30Z
Fast-WAM——训练时保留视频联合训练(虽同时生成但动作token不看视频token),在推理时则移除显式的未来视频生成,直接在单次前向中,依托得到的潜在世界表征KV Cache预测动作

研究者探讨了世界模型代理(WAM)在测试阶段是否需要显式未来想象,提出了Fast-WAM架构,训练时保留视频共训练,推理时跳过未来预测。结果显示,视频预测主要在训练阶段提升模型性能,而非在推理阶段生成未来观测。

Fast-WAM——训练时保留视频联合训练(虽同时生成但动作token不看视频token),在推理时则移除显式的未来视频生成,直接在单次前向中,依托得到的潜在世界表征KV Cache预测动作

结构之法 算法之道
结构之法 算法之道 · 2026-03-31T15:57:16Z
RLT——VLA引导的在线RL:极简MLP结构的Actor-Critic在“VLA浓缩Token感知与VLA参考动作先验”的双重加持下进行在线快速微调,最终从粗到细搞定拧螺丝和充电器插入

本文讨论了一种轻量级的在线强化学习方法,用于微调视觉-语言-动作模型。研究者通过引入“RL token”提高样本效率,使得模型能够快速适应真实世界任务。该方法结合冻结的VLA和小型actor-critic网络,优化关键任务阶段的表现,旨在实现高效的在线微调,同时保持泛化能力。

RLT——VLA引导的在线RL:极简MLP结构的Actor-Critic在“VLA浓缩Token感知与VLA参考动作先验”的双重加持下进行在线快速微调,最终从粗到细搞定拧螺丝和充电器插入

结构之法 算法之道
结构之法 算法之道 · 2026-03-26T03:44:34Z
腕带使佩戴者能够通过自身动作控制机器人手

麻省理工学院的工程师们开发了一种超声波腕带,能够实时精确追踪佩戴者的手部动作,并通过人工智能算法将这些动作转化为机器人或虚拟环境中的操作。研究表明,佩戴者可以无线控制机器人进行弹钢琴和投篮等活动。团队计划进一步缩小腕带硬件,并训练AI软件以适应更多手势,实现更高灵活性的手部动作追踪。

腕带使佩戴者能够通过自身动作控制机器人手

MIT News - Artificial intelligence
MIT News - Artificial intelligence · 2026-03-25T10:00:00Z
GigaWorld-Policy——以动作为中心的世界动作模型:为降低推理延迟,训练用视频,推理去视频(与Fast-WAM类似)

GigaWorld-Policy是一种高效的以动作为中心的世界-动作模型,旨在提升机器人策略学习。该模型结合未来视觉动态与动作预测,优化学习效率并减少推理延迟。通过课程式训练和多样化视频源注入物理先验,在机器人数据上进行预训练,以增强对交互动力学的鲁棒性。

GigaWorld-Policy——以动作为中心的世界动作模型:为降低推理延迟,训练用视频,推理去视频(与Fast-WAM类似)

结构之法 算法之道
结构之法 算法之道 · 2026-03-23T15:52:37Z

最新研究表明,Agent 的成功关键在于工程治理,而非模型能力。虽然许多团队能够运行 Agent,但在实际业务中常出现会话串扰和误操作等问题。因此,必须建立系统边界,以确保在故障时能够持续运行,避免生产事故。同时,建议进行技术治理和内容沉淀,以实现长期效益。

Agent 落地不靠更强模型:后端团队先补这 4 个治理动作

后端技术杂谈
后端技术杂谈 · 2026-03-18T13:00:00Z
这款坚固手机的一款相机是可弹出的动作相机

RugOne Xsnap 7 Pro是一款坚固手机,配备可拆卸的动作相机和磁性模块化配件系统。它搭载MediaTek Dimensity 8400 5G芯片,拥有12GB内存和512GB存储,配备6.67英寸120Hz AMOLED显示屏和夜视相机,尽管较厚,但仍可放入口袋。

这款坚固手机的一款相机是可弹出的动作相机

The Verge
The Verge · 2026-03-09T19:43:41Z
《生化危机:安魂曲》是两种恐怖世界的最佳结合

《生化危机:安魂曲》成功结合了第一人称恐怖与《生化危机4》的动作元素。玩家将控制中年英雄里昂·肯尼迪和新角色格蕾丝·阿什克罗夫特。游戏设定在2026年,格蕾丝调查1998年浣熊市事件的谋杀案,面对各种恐怖敌人。游戏在视角切换上表现出色,提供紧张的战斗与丰富的环境,最终带来令人满意的结局。该作将于2月27日发售。

《生化危机:安魂曲》是两种恐怖世界的最佳结合

The Verge
The Verge · 2026-02-25T15:00:00Z
DM0——面向物理AI的VLA:先VLM上混入物理数据做预训练,之后保持知识隔离的同时训练流匹配动作专家,最后做微调

本文介绍了DM0模型,这是一种面向体感智能的视觉-语言-动作(VLA)框架,旨在统一操作与导航。DM0通过多源三阶段训练流程,结合视觉、驾驶和体感数据,克服了传统模型的局限性,并在RoboChallenge基准测试中表现优异,展示了其在物理AI领域的潜力。

DM0——面向物理AI的VLA:先VLM上混入物理数据做预训练,之后保持知识隔离的同时训练流匹配动作专家,最后做微调

结构之法 算法之道
结构之法 算法之道 · 2026-02-24T16:09:17Z
仅凭"动作剪影",打通视频生成与机器人世界模型!BridgeV2W让机器人学会"预演未来"

抱歉,您提供的文本没有具体内容。请提供更多信息或完整的文章,以便我进行总结。

仅凭"动作剪影",打通视频生成与机器人世界模型!BridgeV2W让机器人学会"预演未来"

机器之心
机器之心 · 2026-02-21T13:37:11Z
X-VLA——基于Soft Prompt的Transformer编码器练就可扩展的跨本体VLA:VLM做多模态感知,DiT-style做动作生成

本文介绍了一种新型机器人学习模型X-VLA,采用软提示技术以提升跨具身机器人学习的适应性和泛化能力。通过引入可学习的嵌入,X-VLA有效解决了不同硬件和任务环境下的异质性问题,增强了模型在多样化数据集上的表现。该模型在多个基准测试中表现优异,展现出在灵巧操作和适应新领域方面的强大能力。

X-VLA——基于Soft Prompt的Transformer编码器练就可扩展的跨本体VLA:VLM做多模态感知,DiT-style做动作生成

结构之法 算法之道
结构之法 算法之道 · 2026-02-21T05:00:30Z
GigaBrain-0.5M*(可对标π∗0.6)——从基于世界模型的RL中学习的VLA:通过“预测的价值和未来状态、经验数据、人工纠正”优化动作策略

本文介绍了GigaBrain-0.5M*模型,该模型通过世界模型增强了视觉-语言-动作(VLA)系统的能力。GigaBrain-0.5M*在GigaBrain-0.5的基础上,采用了基于世界模型的强化学习方法RAMP,显著提升了机器人在复杂任务中的表现,尤其在长时程任务中的前瞻性规划能力。

GigaBrain-0.5M*(可对标π∗0.6)——从基于世界模型的RL中学习的VLA:通过“预测的价值和未来状态、经验数据、人工纠正”优化动作策略

结构之法 算法之道
结构之法 算法之道 · 2026-02-16T04:11:48Z
RDT2——基于UMI数据实现零样本且跨本体的泛化:先训练VLM、后训练扩散动作专家、最后将扩散策略蒸馏为一步生成器(挑战叠衣服)

RDT2是一种新型机器人基础模型,旨在实现跨本体、物体和场景的零样本迁移能力。通过使用UMI数据集和三阶段训练策略,RDT2能够高效处理多样化的真实世界任务,提升机器人在未见物体和场景中的泛化能力。该模型在微调实验中表现优异,尤其在复杂操作和动态任务中,展现出显著的性能提升。

RDT2——基于UMI数据实现零样本且跨本体的泛化:先训练VLM、后训练扩散动作专家、最后将扩散策略蒸馏为一步生成器(挑战叠衣服)

结构之法 算法之道
结构之法 算法之道 · 2026-02-13T14:13:39Z
《Reanimal》想要吞噬你

《Reanimal》是一款黑暗动作平台游戏,玩家控制一对儿童在充满怪异生物的森林中探险。游戏融合了恐怖与童话元素,展现了儿童在成人世界中的恐惧与挣扎。尽管存在一些技术问题,但其视觉效果和深刻寓意令人印象深刻,反映了20世纪的恐怖与当今的冲突。

《Reanimal》想要吞噬你

The Verge
The Verge · 2026-02-11T16:00:00Z
DreamZero——同时统一预测未来视觉状态与动作的世界动作模型:解决当下VLA如果人类不示教则理论强但具体操作不强的弊病,且提升任务泛化、本体泛化

DreamZero是一种新型世界动作模型,通过联合预测视频和动作,提升机器人在新环境中的泛化能力。与传统模型相比,DreamZero能够高效学习多样化技能,支持零样本泛化,并实现实时控制。其核心在于利用预训练的视频扩散模型,结合自回归架构和优化策略,提高推理速度和准确性。

DreamZero——同时统一预测未来视觉状态与动作的世界动作模型:解决当下VLA如果人类不示教则理论强但具体操作不强的弊病,且提升任务泛化、本体泛化

结构之法 算法之道
结构之法 算法之道 · 2026-02-08T09:16:32Z

蚂蚁灵波开源的LingBot-VA具身世界模型结合视频生成与机器人控制,能够实时推演和执行动作,在复杂任务中表现优异,成功率显著提升,采用新架构实现高效推理,推动具身智能的发展。

让世界模型直接控制机器人动作,蚂蚁灵波开源具身世界模型LingBot-VA

量子位
量子位 · 2026-01-30T06:24:54Z
  • <<
  • <
  • 1 (current)
  • 2
  • 3
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
友情链接: MOGE.AI 九胧科技 模力方舟 Gitee AI 菜鸟教程 Remio.AI DeekSeek连连 53AI 神龙海外代理IP IPIPGO全球代理IP 东波哥的博客 匡优考试在线考试系统 开源服务指南 蓝莺IM Solo 独立开发者社区 AI酷站导航 极客Fun 我爱水煮鱼 周报生成器 He3.app 简单简历 白鲸出海 T沙龙 职友集 TechParty 蟒周刊 Best AI Music Generator

小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码