量子位 ·

不更新参数就能强化学习！OpenAI翁家翌提出新范式：决策只需AI手搓一个.py 文件

💡 原文中文，约2200字，阅读约需6分钟。

📝

内容提要

启发式学习（HL）是一种新型强化学习方法，成功在Atari游戏中取得高分。HL通过代码编辑替代梯度更新，实现显式决策逻辑，克服了深度强化学习的灾难性遗忘和不可解释性问题，尤其在复杂控制场景中表现出强适应能力。未来，HL与神经网络的结合将推动在线学习与持续学习的发展。

🎯

❓

启发式学习（HL）是一种新型强化学习方法，通过代码编辑替代梯度更新，实现显式决策逻辑。

HL克服了深度强化学习的灾难性遗忘和不可解释性问题，表现出强适应能力，尤其在复杂控制场景中。

在Atari 57测试中，HL的表现与主流深度强化学习算法持平，甚至在某些游戏中超越人类玩家。

HL将决策逻辑迁移到离散程序空间，使用显式符号规则实现状态-动作映射，避免了黑箱问题。

HL在四足机器人Ant和HalfCheetah任务中表现出色，取得高分，展现出强适应能力。

未来HL与神经网络的结合将推动在线学习与持续学习的发展，解决当前的学习难题。

🏷️

How OpenAI Built a Secure Windows Sandbox for Codex Agents
OpenAI details Codex Windows sandbox architecture, showing how SIDs, ACLs, re...
姚顺雨首度公开回应：为什么离开OpenAI加入腾讯？
2026腾讯云AI产业大会在北京举行，姚顺雨首次公开露面，分享了他对AI下半场的看法。他强调AI的核心在于寻找问题，而非技术本身，并指出腾讯的产品环境和组...
eBay拒绝游戏驿站560亿美元收购提案；OpenAI收购Tomoro并成立新实体；腾讯音乐完成收购喜马拉雅
OpenAI收购咨询公司Tomoro，成立新合资企业以推动人工智能应用。优步提高对Delivery Hero的收购报价。阳狮集团以22亿美元收购LiveR...
开始在 Amazon Bedrock 上使用 OpenAI GPT-5.5、GPT-5.4 模型和 Codex
OpenAI的GPT-5.5和GPT-5.4模型以及Codex已在Amazon Bedrock平台上线。这些模型专注于代码编写和复杂工作流程，支持开发者通...
Gone in 60 minutes
It should have been the final straw. The new power couple of editorial failur...
20260605的胡言乱语
本文介绍了多种技术工具和方法，包括YAMLResume简历管理工具、终端中的cal命令、Shlink短链接服务、systemd timers替代cron、...