小红花·文摘 - 小红花技术领袖俱乐部

$π0.7——4层prompt下的技能组合泛化能力：先高层策略基于指令历史和当前画面输出子任务指令，后世界模型基于子任务指令生成子目标图像$

π0.7——4层prompt下的技能组合泛化能力：先高层策略基于指令历史和当前画面输出子任务指令，后世界模型基于子任务指令生成子目标图像

结构之法算法之道 ·

Google 年度最强 AI 偷跑！一个电风扇动画引发疯传，Gemini 3要给GPT-5.1上强度了

Google 年度最强 AI 偷跑！一个电风扇动画引发疯传，Gemini 3要给GPT-5.1上强度了

爱范儿 ·

本文介绍了NavA3框架，旨在解决具身导航中的高层次指令理解与空间定位问题。该框架包括全局策略和局部策略，利用视觉语言模型解析指令并确定目标位置，随后通过NaviAfford模型实现精确导航。研究表明，NavA3在真实环境中的长时导航任务中表现优异，展现出强大的跨载体能力。

NavA3——双VLM架构下的先“推理解析”后“定位导航”：理解任意指令，导航至任意地点，查找任意目标

结构之法算法之道 ·