小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI
Galaxea G0.5——升级“VLA自回归建模”范式:摒弃VLM上添加动作专家的模式,而是构建统一模型,用一套权重,在同一个自回归token序列中同时生成推理与动作(含VLA-0的详解)

星海图提出的G0.5模型将视觉语言模型与动作生成统一为单一自回归序列,通过共享权重实现推理与动作的耦合,提升机器人控制效率。该模型采用可学习的动作分词器和视觉记忆模块,优化动作生成过程,减少离散化负担,能够在零样本条件下分解任务,直接生成动作,增强对复杂场景的适应能力。

Galaxea G0.5——升级“VLA自回归建模”范式:摒弃VLM上添加动作专家的模式,而是构建统一模型,用一套权重,在同一个自回归token序列中同时生成推理与动作(含VLA-0的详解)

结构之法 算法之道
结构之法 算法之道 · 2026-06-04T10:18:09Z
从看懂世界到做对动作,卧安机器人OneModel 1.7用一条「隐式通路」打通了具身智能的关键断层

卧安机器人发布了OneModel 1.7 FrontoStria-RL,该模型通过隐式传导机制将世界模型与动作执行连接,提升了家庭机器人在真实环境中的操作能力。其在标准评测中的成功率达到99%,显示出在家庭场景中的应用潜力。OneModel通过真实数据的持续反馈不断进化,推动家庭机器人向可靠工作迈进。

从看懂世界到做对动作,卧安机器人OneModel 1.7用一条「隐式通路」打通了具身智能的关键断层

量子位
量子位 · 2026-06-03T12:28:44Z

TeaQL Robot Task Board 是一个开源项目,包含应用程序、生成库和 teaql-rs 运行时。Docker 镜像仅 2.54MB,运行时内存约 3MiB,支持生成 SQL 和审计日志等功能。项目地址为 https://github.com/teaql/robot-task-board/。

家用路由器也能跑的展示业务动作到 SQL/Audit Trace 的小演示

Rust.cc
Rust.cc · 2026-06-02T15:38:24Z
τ0-WM——智元的视频-动作世界模型:组合“遥操、umi、人类第一人称视角”数据,未来视觉Latent助力动作生成,然后重新加噪去噪,若自洽取表现最好者直接执行,否则模拟推演找出最佳视觉指引重新生成

研究者提出了一种名为τ0-World Model(τ0-WM)的统一视频-动作世界模型,旨在提升机器人操作的预测能力。该模型结合视频预测、动作生成和任务评估,利用27,300小时的多样化数据进行训练。τ0-WM通过共享的预测网络,提供视频动作模型和动作条件视频模拟器两个接口,优化机器人在执行前的决策过程。

τ0-WM——智元的视频-动作世界模型:组合“遥操、umi、人类第一人称视角”数据,未来视觉Latent助力动作生成,然后重新加噪去噪,若自洽取表现最好者直接执行,否则模拟推演找出最佳视觉指引重新生成

结构之法 算法之道
结构之法 算法之道 · 2026-06-01T04:30:18Z
机器人原生世界动作模型问世!首创时空一体架构,复旦系团队出品

眸深智能推出STI-WM时空一体世界动作模型,旨在解决机器人自主感知与决策的难题。该模型通过时空一体化建模和物理一致性约束,提升机器人在真实物理世界中的表现。团队由复旦大学专家组成,已获得多项国际荣誉,并与多家行业领军企业合作,推动AGI技术发展。

机器人原生世界动作模型问世!首创时空一体架构,复旦系团队出品

量子位
量子位 · 2026-05-31T10:13:21Z
AI网红四步造星实战:选圈子融脸锁动作去塑料感

AI网红成功的关键在于选择合适的圈子、融合真人照片和锁定动作。选择圈子影响流量,亚文化、旅行事件和身体特征是有效方向。生成面孔时需使用两张反差大的真人照片,创造有故事感的脸。视频生成需先制作起始帧,确保姿势准确,再用长提示词锁定动作,最后通过手机传输和调整参数去除AI痕迹,提升真实感。

AI网红四步造星实战:选圈子融脸锁动作去塑料感

极道
极道 · 2026-05-08T05:32:00Z
不用电池的智能家居传感器:金属小标签用超声波就能识别开门和健身动作

佐治亚理工团队研发了一种无需电池的智能家居传感器,利用金属小标签通过超声波识别开门和健身动作。该传感器成本低廉,保护隐私,不受电池和网络限制,适用于档案管理和健身记录,简化了智能家居感知。

不用电池的智能家居传感器:金属小标签用超声波就能识别开门和健身动作

极道
极道 · 2026-05-07T00:12:00Z
OpenClaw v2026.5.5小更新:全是小修小补,没啥大动作

OpenClaw发布了小更新,修复了多个聊天平台(如飞书、LINE、Telegram、Discord等)中的小问题,提升了用户体验。更新主要集中在修复消息串台、重复显示和连接问题,确保聊天过程更流畅。虽然没有新增功能,但解决了三十多个用户反馈的小毛病,提升了系统稳定性和响应速度。

OpenClaw v2026.5.5小更新:全是小修小补,没啥大动作

极道
极道 · 2026-05-06T12:23:00Z
银河通用LDA定义全域数据利用范式,跨本体世界动作大模型开启具身GPT-2时刻

银河通用推出的LDA-1B模型在具身智能领域实现了数据的统一利用,突破了传统模型的局限。该模型有效整合多种数据源,快速适应不同机器人,降低数据获取成本,推动了行业技术进步和产业化进程。

银河通用LDA定义全域数据利用范式,跨本体世界动作大模型开启具身GPT-2时刻

量子位
量子位 · 2026-04-29T02:23:06Z
LARYBench 发布:定义具身动作表征 ImageNet,首次度量从人类视频学习的泛化表征

本文介绍了LARYBench,一个用于评估隐式动作表征的基准系统,旨在提升机器人在不同环境中的泛化能力。LARYBench分析了大规模人类视频数据,提供超过一百万段标注视频,涵盖151种动作,支持多样化的机器人形态和操作场景。实验结果表明,通用视觉模型在动作泛化和控制精度上优于专门模型,强调了隐式动作表征的重要性。

LARYBench 发布:定义具身动作表征 ImageNet,首次度量从人类视频学习的泛化表征

美团技术团队
美团技术团队 · 2026-04-27T00:00:00Z
《Saros》是纯粹的动作天堂

《Saros》是芬兰开发商Housemarque为PS5推出的独占游戏,玩家扮演阿尔君,探索矿产丰富的星球Carcosa,面临时间循环和大量敌人。游戏以华丽的视觉效果和激烈的射击玩法为特色,提供丰富的武器和升级系统,挑战性与可玩性兼具,定于4月30日发售。

《Saros》是纯粹的动作天堂

The Verge
The Verge · 2026-04-24T07:00:00Z

距离《洛奇英雄传:反抗命运》(Vindictus: Defying...

以性感角色著称的《洛奇英雄传》,新作正卖力调整动作系统

游戏研究社
游戏研究社 · 2026-04-23T16:00:00Z
HTD——基于触觉预测的人形行走-操作框架:融合视觉、本体感知、力反馈、触觉,同时预测动作、未来手部关节受力、由EMA目标编码器监督的未来触觉潜变量

本文探讨了人形机器人在“行走-操作”任务中的挑战,提出了一种集成式全身操控系统,结合强化学习、VR遥操作和触觉感知。研究者开发了具身触觉梦境的Transformer(HTD),通过多模态学习提升机器人对接触状态的理解和反应能力,简化了学习过程,旨在提高人形机器人的操作能力和灵活性。

HTD——基于触觉预测的人形行走-操作框架:融合视觉、本体感知、力反馈、触觉,同时预测动作、未来手部关节受力、由EMA目标编码器监督的未来触觉潜变量

结构之法 算法之道
结构之法 算法之道 · 2026-04-23T10:29:30Z
Fast-WAM——训练时保留视频联合训练(虽同时生成但动作token不看视频token),在推理时则移除显式的未来视频生成,直接在单次前向中,依托得到的潜在世界表征KV Cache预测动作

研究者探讨了世界模型代理(WAM)在测试阶段是否需要显式未来想象,提出了Fast-WAM架构,训练时保留视频共训练,推理时跳过未来预测。结果显示,视频预测主要在训练阶段提升模型性能,而非在推理阶段生成未来观测。

Fast-WAM——训练时保留视频联合训练(虽同时生成但动作token不看视频token),在推理时则移除显式的未来视频生成,直接在单次前向中,依托得到的潜在世界表征KV Cache预测动作

结构之法 算法之道
结构之法 算法之道 · 2026-03-31T15:57:16Z
RLT——VLA引导的在线RL:极简MLP结构的Actor-Critic在“VLA浓缩Token感知与VLA参考动作先验”的双重加持下进行在线快速微调,最终从粗到细搞定拧螺丝和充电器插入

本文讨论了一种轻量级的在线强化学习方法,用于微调视觉-语言-动作模型。研究者通过引入“RL token”提高样本效率,使得模型能够快速适应真实世界任务。该方法结合冻结的VLA和小型actor-critic网络,优化关键任务阶段的表现,旨在实现高效的在线微调,同时保持泛化能力。

RLT——VLA引导的在线RL:极简MLP结构的Actor-Critic在“VLA浓缩Token感知与VLA参考动作先验”的双重加持下进行在线快速微调,最终从粗到细搞定拧螺丝和充电器插入

结构之法 算法之道
结构之法 算法之道 · 2026-03-26T03:44:34Z
腕带使佩戴者能够通过自身动作控制机器人手

麻省理工学院的工程师们开发了一种超声波腕带,能够实时精确追踪佩戴者的手部动作,并通过人工智能算法将这些动作转化为机器人或虚拟环境中的操作。研究表明,佩戴者可以无线控制机器人进行弹钢琴和投篮等活动。团队计划进一步缩小腕带硬件,并训练AI软件以适应更多手势,实现更高灵活性的手部动作追踪。

腕带使佩戴者能够通过自身动作控制机器人手

MIT News - Artificial intelligence
MIT News - Artificial intelligence · 2026-03-25T10:00:00Z
GigaWorld-Policy——以动作为中心的世界动作模型:为降低推理延迟,训练用视频,推理能可选性的去视频(类似τ0​-WM)

GigaWorld-Policy是一种高效的以动作为中心的世界-动作模型,旨在提升机器人策略学习。该模型结合未来视觉动态与动作预测,优化学习效率并减少推理延迟。通过课程式训练和多样化视频源注入物理先验,在机器人数据上进行预训练,以增强对交互动力学的鲁棒性。

GigaWorld-Policy——以动作为中心的世界动作模型:为降低推理延迟,训练用视频,推理能可选性的去视频(类似τ0​-WM)

结构之法 算法之道
结构之法 算法之道 · 2026-03-23T15:52:37Z

最新研究表明,Agent 的成功关键在于工程治理,而非模型能力。虽然许多团队能够运行 Agent,但在实际业务中常出现会话串扰和误操作等问题。因此,必须建立系统边界,以确保在故障时能够持续运行,避免生产事故。同时,建议进行技术治理和内容沉淀,以实现长期效益。

Agent 落地不靠更强模型:后端团队先补这 4 个治理动作

后端技术杂谈
后端技术杂谈 · 2026-03-18T13:00:00Z
这款坚固手机的一款相机是可弹出的动作相机

RugOne Xsnap 7 Pro是一款坚固手机,配备可拆卸的动作相机和磁性模块化配件系统。它搭载MediaTek Dimensity 8400 5G芯片,拥有12GB内存和512GB存储,配备6.67英寸120Hz AMOLED显示屏和夜视相机,尽管较厚,但仍可放入口袋。

这款坚固手机的一款相机是可弹出的动作相机

The Verge
The Verge · 2026-03-09T19:43:41Z
《生化危机:安魂曲》是两种恐怖世界的最佳结合

《生化危机:安魂曲》成功结合了第一人称恐怖与《生化危机4》的动作元素。玩家将控制中年英雄里昂·肯尼迪和新角色格蕾丝·阿什克罗夫特。游戏设定在2026年,格蕾丝调查1998年浣熊市事件的谋杀案,面对各种恐怖敌人。游戏在视角切换上表现出色,提供紧张的战斗与丰富的环境,最终带来令人满意的结局。该作将于2月27日发售。

《生化危机:安魂曲》是两种恐怖世界的最佳结合

The Verge
The Verge · 2026-02-25T15:00:00Z
  • <<
  • <
  • 1 (current)
  • 2
  • 3
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
友情链接: MOGE.AI 九胧科技 模力方舟 Gitee AI 菜鸟教程 Remio.AI DeekSeek连连 53AI 神龙海外代理IP IPIPGO全球代理IP 东波哥的博客 匡优考试在线考试系统 开源服务指南 蓝莺IM Solo 独立开发者社区 AI酷站导航 极客Fun 我爱水煮鱼 周报生成器 He3.app 简单简历 白鲸出海 T沙龙 职友集 TechParty 蟒周刊 Best AI Music Generator

小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码