小红花·文摘 - 小红花技术领袖俱乐部

刚刚，LeCun团队让世界模型学会持续学习！

量子位 ·

NVIDIA研究推动机器人技术从模拟走向现实

NVIDIA研究推动机器人技术从模拟走向现实

NVIDIA Blog ·

$MEM——解决VLA长时记忆问题的框架：短时靠高效视频编码抓细节，长线凭文本记忆系统记进度$

MEM——解决VLA长时记忆问题的框架：短时靠高效视频编码抓细节，长线凭文本记忆系统记进度

结构之法算法之道 ·

本文探讨了“及时”世界建模的研究，强调基于模拟的推理如何支持人类规划。提出了一种新颖的JIT框架，通过实时构建心理地图和选择性信息收集，实现高效决策。实验表明，JIT系统在处理环境时存储的信息量显著低于传统方法，但仍能做出高质量预测。未来研究应关注动态环境中的信息选择。

“及时”世界建模支持人类规划与推理

KDnuggets ·

$DualVLN——基于像素目标点的双系统VLN基础模型：VLM做全局规划且预测中期路径，DiT策略头依托高频RGR输入和“来自VLM的低频潜在特征”生成动作轨迹$

DualVLN——基于像素目标点的双系统VLN基础模型：VLM做全局规划且预测中期路径，DiT策略头依托高频RGR输入和“来自VLM的低频潜在特征”生成动作轨迹

结构之法算法之道 ·

$Hume——系统1(VLM+评估头+动作头)与系统2(动作头)的组合：系统1做慢思考且通过价值评估选择对应的动作片段，让系统2持续扩散去噪$

Hume——系统1(VLM+评估头+动作头)与系统2(动作头)的组合：系统1做慢思考且通过价值评估选择对应的动作片段，让系统2持续扩散去噪

结构之法算法之道 ·

《Agentic Design Patterns：构建智能系统的实战指南》- 第九章学习与适应

《Agentic Design Patterns：构建智能系统的实战指南》- 第九章学习与适应

实时互动网 ·

《Agentic Design Patterns：构建智能系统的实战指南》- 第六章规划

《Agentic Design Patterns：构建智能系统的实战指南》- 第六章规划

实时互动网 ·

$ResMimic——类似预训练-微调模式的人形行走-操作：先预训练一个通用运动跟踪策略，后针对特定任务做修正(非盲态部署时依赖动捕)$

ResMimic——类似预训练-微调模式的人形行走-操作：先预训练一个通用运动跟踪策略，后针对特定任务做修正(非盲态部署时依赖动捕)

结构之法算法之道 ·

Agent设计模式——第 11 章：目标设定和监控

Agent设计模式——第 11 章：目标设定和监控

XINDOO的博客 ·

Agent设计模式——第 6 章：规划

Agent设计模式——第 6 章：规划

XINDOO的博客 ·

$InternVLA-N1——规划-执行双系统下的VLN基础模型：具备学习型的潜在规划能力，可部署在轮式、四足、双足人形上(含我司复现实践)$

InternVLA-N1——规划-执行双系统下的VLN基础模型：具备学习型的潜在规划能力，可部署在轮式、四足、双足人形上(含我司复现实践)

结构之法算法之道 ·

TrackVLA是一种集成目标识别与轨迹规划的视觉-语言-动作模型，旨在解决具身视觉跟踪任务。通过联合训练，该模型在动态环境中展现出优越的识别与规划能力，提升了智能体在复杂场景中的跟踪效果。

TrackVLA——开放世界下的四足具身视觉跟踪EVT(智能跟随)：集目标识别与轨迹规划为一体的VLA，不怕高动态与遮挡

结构之法算法之道 ·

机器人，认识你自己：新视觉系统教会机器理解自身

机器人，认识你自己：新视觉系统教会机器理解自身

MIT News - Artificial intelligence ·

淘天提出的Mobile-R1是一个任务级奖励的交互式强化学习框架，旨在提高移动代理的适应性和探索能力。通过三阶段训练流程和高质量轨迹数据集，Mobile-R1在动态环境中的任务成功率达到49.40%，显著优于其他基准模型。

任务级奖励提升App Agent思考力，淘天提出Mobile-R1，3B模型可超32B

量子位 ·

本研究提出了一种反射世界模型（RWM）双重控制框架，旨在解决动态环境中学习控制策略的应用问题。该方法具有快速适应和低计算成本的优势，性能接近最优水平。

世界模型作为快速运动适应的参考轨迹

BriefGPT - AI 论文速递 ·

自去年Q4以来，我司专注于具身智能应用开发，需求持续增长。本周，国企和知名企业频繁联系，涉及多个行业。研究者关注CMU和UCSD的最新进展，提出自适应运动优化（AMO）框架，旨在解决人形机器人全身控制的挑战，结合强化学习和轨迹优化，提升机器人在动态环境中的操作能力。

人形loco-manipulation专题——涵盖Mobile-TeleVision、下肢RL-上肢模仿的AMO、上下双智能体联合训练的FALCON

结构之法算法之道 ·

2025年最佳五款免费反向代理解决方案

2025年最佳五款免费反向代理解决方案

DEV Community ·

本研究分析了大型语言模型在动态环境中的自我学习与推理能力，指出其在计划、推理和空间协调方面的局限性，并强调多样化推理方法的重要性。

深入理解大型语言模型的推理能力

BriefGPT - AI 论文速递 ·

本研究提出了动态环境中目标识别的新定义，旨在提升实时目标识别系统的能力，采用无模型强化学习方法，展示了快速适应变化任务的能力。

General Dynamic Target Recognition

BriefGPT - AI 论文速递 ·