OpenAI ·

基于动作依赖的分解基线的策略梯度方差降低

💡 原文英文，约200词，阅读约需1分钟。

📝

内容提要

本文提出了一种无偏的动作依赖基线，以降低深度强化学习中策略梯度方法的高方差问题。该方法利用随机策略的结构，适用于长时间跨度和高维动作空间，实验表明其能加速学习，适合高维控制问题，并可扩展至部分观察和多智能体任务。

🎯

❓

无偏的动作依赖基线是一种用于降低深度强化学习中策略梯度方法高方差问题的技术，充分利用随机策略的结构形式。

该方法通过利用随机策略的结构，降低了策略梯度估计的方差，特别适用于长时间跨度和高维动作空间。

实验结果表明，动作依赖基线可以加速标准强化学习基准和高维手部操作及合成任务的学习。

该算法适用于高维控制问题、部分观察任务和多智能体任务。

该算法在计算上高效，能够扩展到高维控制问题，如2000维目标匹配任务。

该方法的思想可以扩展到部分观察和多智能体任务，以提高方差减少效果。

🏷️

Vibhor Kumar：平稳平台测试：您的PostgreSQL策略是否适合企业？
企业在使用PostgreSQL时，应关注其成熟度与稳定性，特别是在升级、维护和扩展方面。PostgreSQL 18引入了多项改进，增强了其作为操作平台的能...
LWD——结合“分布式隐式价值学习与基于QAM的策略提取”的RL策略框架，先离线RL预训练，后在线RL微调
本文讨论了在真实世界中部署通用机器人策略的挑战，提出了一种名为“部署中学习”（LWD）的框架，通过车队规模的离线到在线强化学习（RL）实现策略的持续改进。...
Christophe Pettus: On pgvectorscale, and Hybrid Search Without an Elasticsearch Sidecar
pgvector is excellent. It is also, at large scale, expensive — because the HN...
保罗·梅尔基奥雷：Posette 2026
An Event for Postgres (pronounced /Pō-zet/, and formerly called Citus Con) is...
OpenClaw v2026.4.29：从消息控制到记忆系统彻底进化
OpenClaw v2026.4.29版本改进了自动化对话、记忆系统和基础设施稳定性。新增的active-run引导和visible-reply机制增强了...
Roblox的日活跃用户持续下降，年龄检查减缓了增长
Roblox的日活跃用户在过去六个月减少了2000万，降至1.32亿，主要因实施年龄检查导致新用户增长放缓。尽管如此，Roblox的收入仍增长至14亿美元...