HyperAI超神经 ·

【vLLM 学习】Rlhf Colocate

💡 原文中文，约4500字，阅读约需11分钟。

📝

内容提要

本文介绍了如何在同一GPU上协同部署vLLM工作进程与训练执行器，适用于类RLHF应用。通过设置环境变量和使用CUDA-IPC传递张量，实现多个进程间的高效通信。

🎯

❓

通过设置环境变量VLLM_RAY_PER_WORKER_GPUS和VLLM_RAY_BUNDLE_INDICES，使用Ray控制vLLM工作进程的部署位置。

因为在同一GPU上存在多个进程时，NCCL无法正常工作，因此需要使用CUDA-IPC进行高效通信。

每个工作进程将使用0.4个GPU，以便在同一GPU上调度两个实例。

检查部署情况，确保前两个训练执行器与第一个推理引擎部署在同一GPU上，最后两个训练执行器与第二个推理引擎部署在同一GPU上。

确保目标GPU上没有GPU活动，以避免干扰vLLM内存分析。

收集所有训练执行器的IPC句柄，并通过collective_rpc方法更新推理引擎的权重。

🏷️

LWD——结合“分布式隐式价值学习与基于QAM的策略提取”的RL策略框架，先离线RL预训练，后在线RL微调
本文讨论了在真实世界中部署通用机器人策略的挑战，提出了一种名为“部署中学习”（LWD）的框架，通过车队规模的离线到在线强化学习（RL）实现策略的持续改进。...
Vibhor Kumar：平稳平台测试：您的PostgreSQL策略是否适合企业？
Features create capability. Calm operations create trust. Most platfor...
Rivian的收入增长，R2生产加速
Rivian reported its first quarter earnings of 2026, providing us a closer loo...
Rivian缩减其在乔治亚州电动车工厂的目标
Rivian宣布因与美国能源部的贷款协议调整，将乔治亚州电动车工厂的年产能力从40万辆减少至30万辆，新的贷款金额为45亿美元，低于原先的66亿美元。Ri...
Nemotron Labs: What OpenClaw Agents Mean for Every Organization
By early 2026, the open source project OpenClaw had become a phenomenon. In J...
种族歧视的最高法院逻辑不成立
美国最高法院裁定废除《投票权法》第2条，允许种族歧视的选区划分，导致黑人选民代表性大幅下降，进一步加剧社会不平等。