机器之心 ·

强化学习之父Richard Sutton给出一个简单思路，大幅增强所有RL算法

💡 原文中文，约4400字，阅读约需11分钟。

📝

内容提要

阿尔伯塔大学的Richard Sutton教授团队提出了“奖励聚中”理论，通过减去奖励的平均值，使奖励以均值为中心，从而加快强化学习算法的学习速度。实验结果显示，该方法显著提升了算法性能，尤其在折现因子接近1时效果更佳。

🎯

🏷️

LWD——结合“分布式隐式价值学习与基于QAM的策略提取”的RL策略框架，先离线RL预训练，后在线RL微调
本文讨论了在真实世界中部署通用机器人策略的挑战，提出了一种名为“部署中学习”（LWD）的框架，通过车队规模的离线到在线强化学习（RL）实现策略的持续改进。...
Christophe Pettus: On pgvectorscale, and Hybrid Search Without an Elasticsearch Sidecar
pgvector is excellent. It is also, at large scale, expensive — because the HN...
保罗·梅尔基奥雷：Posette 2026
An Event for Postgres (pronounced /Pō-zet/, and formerly called Citus Con) is...
OpenClaw v2026.4.29：从消息控制到记忆系统彻底进化
这一版主打三件事：让自动化对话更听话、让记忆系统更懂人、让底层基础设施更稳。五个板块一共塞了二十多项改进，从消息流转到安全扫描，从模型接入到网关修复，覆盖...
Roblox的日活跃用户持续下降，年龄检查减缓了增长
Roblox的日活跃用户在过去六个月减少了2000万，降至1.32亿，主要因实施年龄检查导致新用户增长放缓。尽管如此，Roblox的收入仍增长至14亿美元...
国会继续推迟监控改革
美国国会将《外国情报监视法》第702条延长45天，以便进行改革谈判。尽管有小幅改革，但未包含备受争议的搜查令要求，隐私倡导者对此表示失望。国会需在2026...