小红花·文摘 - 小红花技术领袖俱乐部

SFT别急着接RL！你的多模态大模型可能一直在“带伤训练”

量子位 ·

一文通透Qwen3-VL——在交错式MRoPE、DeepStack、文本时间戳对齐机制的基础上，先预训练，再后训练(即分别SFT、蒸馏、RL)

一文通透Qwen3-VL——在交错式MRoPE、DeepStack、文本时间戳对齐机制的基础上，先预训练，再后训练(即分别SFT、蒸馏、RL)

结构之法算法之道 ·

本文讨论了Mooncake Store在统一内存池、local master和softpin语义方面的演进，强调了主动释放lease和故障注入的重要性，以提高系统性能和稳定性。整体设计旨在应对高并发场景下的挑战。

RL 下 Mooncake Store 演进分析

学习让我快乐 ·

$LWD——大规模部署中训练VLA的RL框架：结合“分布隐式价值学习”与“基于QAM的策略提取”，先离线RL预训练，后在线RL微调中跑通“部署-数据收集-训练”的持续进化循环$

LWD——大规模部署中训练VLA的RL框架：结合“分布隐式价值学习”与“基于QAM的策略提取”，先离线RL预训练，后在线RL微调中跑通“部署-数据收集-训练”的持续进化循环

结构之法算法之道 ·

$ViVa——基于视频生成模型的机器人RL价值估计：比原先基于VLM的价值函数，能更好的在动态交互环境中对当前进度和未来走势下所带来的回报做估计$

ViVa——基于视频生成模型的机器人RL价值估计：比原先基于VLM的价值函数，能更好的在动态交互环境中对当前进度和未来走势下所带来的回报做估计

结构之法算法之道 ·

刘壮陈丹琦新作：开源通用视觉推理RL框架，0思考数据刷新SOTA

量子位 ·

RLT——VLA引导的在线RL：极简MLP结构的Actor-Critic在“VLA浓缩Token感知与VLA参考动作先验”的双重加持下进行在线快速微调，最终从粗到细搞定拧螺丝和充电器插入

RLT——VLA引导的在线RL：极简MLP结构的Actor-Critic在“VLA浓缩Token感知与VLA参考动作先验”的双重加持下进行在线快速微调，最终从粗到细搞定拧螺丝和充电器插入

结构之法算法之道 ·

$Ψ0——人形全身VLA：先用800h人类自视角视频数据和30h的真实机器人交互数据预训练VLM，再后训练MM-DiT，最后用AMO做下肢RL跟踪$

Ψ0——人形全身VLA：先用800h人类自视角视频数据和30h的真实机器人交互数据预训练VLM，再后训练MM-DiT，最后用AMO做下肢RL跟踪

结构之法算法之道 ·

$HIL-DAFT——双智能体的人类在环RL框架微调的人形VLA(先离线预热后在线交互)：为完成螺栓装配，主智能体负责常规操作、精细化执行体依据语音指令实行细粒度调整$

HIL-DAFT——双智能体的人类在环RL框架微调的人形VLA(先离线预热后在线交互)：为完成螺栓装配，主智能体负责常规操作、精细化执行体依据语音指令实行细粒度调整

结构之法算法之道 ·

本文讨论了在 Mooncake 接入 RL 中的 local master 和统一内存池设计，通过整合数据平面减少数据拷贝，提高效率。提出了统一的内存分配、元数据管理和生命周期管理，确保数据高效访问和管理。强调 AI 在代码实现中的辅助作用，认为 Rust 语言更适合此类开发。

Mooncake 统一内存池:AI Vibe Coding 与 Rust

学习让我快乐 ·

AReaL x 昇腾，加速大模型全异步RL训练创新

AReaL x 昇腾，加速大模型全异步RL训练创新

华为云官方博客 ·

$RL-100——基于真实世界RL的高性能灵巧操作：先基于人类演示做模仿学习预训练，再做迭代式离线RL，最后真机在线RL$

RL-100——基于真实世界RL的高性能灵巧操作：先基于人类演示做模仿学习预训练，再做迭代式离线RL，最后真机在线RL

结构之法算法之道 ·

$RISE——组合式世界模型驱动的RL框架：基于视频扩散模型预测的未来视觉状态，和VLA估计的进度价值评估，以先离线预热后在线改进$

RISE——组合式世界模型驱动的RL框架：基于视频扩散模型预测的未来视觉状态，和VLA估计的进度价值评估，以先离线预热后在线改进

结构之法算法之道 ·

GAPO方法通过精准过滤噪声和稳健估计优势值，解决了企业在复杂环境中AI编程的rollout噪声问题，显著提升了模型的准确性和效率，使真实数据成为模型优化的关键。

鲁棒RL赋能AI编程！破局企业数据噪声难题，同等算力训出更好模型

量子位 ·

$GigaBrain-0.5M*(可对标π∗0.6)——从基于世界模型的RL中学习的VLA：通过“预测的价值和未来状态、经验数据、人工纠正”优化动作策略$

GigaBrain-0.5M*(可对标π∗0.6)——从基于世界模型的RL中学习的VLA：通过“预测的价值和未来状态、经验数据、人工纠正”优化动作策略

结构之法算法之道 ·

$MetaWorld——分层世界模型：融合 VLM 的语义推理能力、预测的未来动态环境、模仿学习的先验，及基于模型RL的对动态环境的在线自适应$

MetaWorld——分层世界模型：融合 VLM 的语义推理能力、预测的未来动态环境、模仿学习的先验，及基于模型RL的对动态环境的在线自适应

结构之法算法之道 ·

$HumanoidPF——让双足人形无碰撞穿越舱门的视觉-运动策略：基于人工势场APF和混合场景建模的全身RL算法$

HumanoidPF——让双足人形无碰撞穿越舱门的视觉-运动策略：基于人工势场APF和混合场景建模的全身RL算法

结构之法算法之道 ·

nanobot-rl

nanobot-rl

plus studio ·

$WholeBodyVLA——全身行走-操作控制的统一潜在VLA：基于从无标注视频中学习行走/操作的LAM，和专门面向loco–mani的RL策略LMO，让智元灵犀X2稳定搬箱子$

WholeBodyVLA——全身行走-操作控制的统一潜在VLA：基于从无标注视频中学习行走/操作的LAM，和专门面向loco–mani的RL策略LMO，让智元灵犀X2稳定搬箱子

结构之法算法之道 ·

$Calibrated Q-learning(简称Cal-QL)——为高效在线微调而对“离线RL预训练”做校准：让学到的Q值有上界(保持CQL已做到的不盲目乐观)，更有底线(不盲目悲观)$

Calibrated Q-learning(简称Cal-QL)——为高效在线微调而对“离线RL预训练”做校准：让学到的Q值有上界(保持CQL已做到的不盲目乐观)，更有底线(不盲目悲观)

结构之法算法之道 ·