学习让我快乐 ·

Reinforcement-Learning 学习笔记

💡 原文中文，约75300字，阅读约需180分钟。

📝

内容提要

部分可观测性在强化学习中意味着代理只能获取部分状态，导致决策不最优。通过增强状态表示和结合历史观测，可以改善决策。函数逼近器无法存储历史信息，需要特征工程或特殊架构来实现记忆。Sutton指出，函数逼近虽然能简化状态，但无法补全缺失信息，需手动调整状态定义。

🎯

关键要点

部分可观测性在强化学习中意味着代理只能获取部分状态，导致决策不最优。
通过增强状态表示和结合历史观测，可以改善决策。
函数逼近器无法存储历史信息，需要特征工程或特殊架构来实现记忆。
Sutton指出，函数逼近虽然能简化状态，但无法补全缺失信息，需手动调整状态定义。

🏷️

继续阅读

数字电路设计原理与实践学习笔记
在硬件设计中，'清除'不仅是归零，还需消除不确定值。DRAM单元需定期刷新以保持数据准确，因电荷会因漏电和噪声而变化。刷新操作通过读取并重...
捅破具身智能天花板！极佳视界新VLA大模型登场，复杂长时程任务近100%成功率
极佳视界推出的GigaBrain-0.5M大模型成功率接近100%，能够完成叠衣服、冲咖啡等复杂任务。该模型基于世界模型进行强化学习，采用人机协作机制，显...
文革史笔记-2.4.3 | 罗瑞卿遭受身心的摧残
罗瑞卿因与林彪的权力斗争遭受迫害，1966年骨折后被红卫兵批斗，身体和精神受到严重摧残。经过多次手术未愈，最终在1969年被迫截肢。
文革史笔记-2.4.3 | 罗瑞卿遭受身心的摧残
罗瑞卿因与林彪的权力斗争遭受迫害，1966年跳楼致骨折。在文革期间，他多次被批斗，身心受到严重摧残，最终因医疗不当导致左腿截肢。
草莓满月仪式和生产纪实短片
草莓满月仪式因春节提前至13号举行，记录了家庭生活的照片和视频。摄影师轩轩制作了精彩的纪实视频，成为满月礼物。
有了折叠手机，谁还需要笔记本电脑？
在使用手提电脑时，检查包内物品很重要。作者尝试将折叠手机与轻便键盘结合，发现这种组合比传统笔记本更轻便，适合短时间工作，方便携带，尽管存在应用兼容性问题。

Reinforcement-Learning 学习笔记

内容提要

关键要点

标签

继续阅读