机器之心 ·

强化学习也涌现？自监督RL扩展到1000层网络，机器人任务提升50倍

💡 原文中文，约2200字，阅读约需6分钟。

📝

内容提要

普林斯顿大学与华沙理工的研究表明，将对比强化学习扩展至1000层可显著提升性能，最多提高50倍，特别是在无监督目标任务中。研究创新性地结合自监督学习与强化学习，增加数据量并突破网络深度，发现更深的网络能够学习新行为并提高泛化能力。

🎯

关键要点

普林斯顿大学与华沙理工的研究表明，将对比强化学习扩展至1000层可显著提升性能，最多提高50倍。
研究结合自监督学习与强化学习，增加数据量并突破网络深度。
传统强化学习通常使用2-5层的浅层网络，而深层网络在视觉和语言领域已被广泛应用。
研究提出将神经网络深度扩展到1024层，以提升自监督强化学习的性能。
研究创新性地将强化学习与自监督学习结合，形成自监督强化学习系统。
通过GPU加速增加可用数据量，并采用多种架构技术稳定训练过程。
随着网络深度的增加，智能体在虚拟环境中表现出新行为，深度256时学会越过迷宫高墙。
更深的网络能够学习到更好的对比表征，提高了AI的泛化能力。
研究采用来自ResNet架构的残差连接，定义网络深度为所有残差块的Dense层总数。
研究展示了将多种构建模块整合到单一强化学习方法中的方式，展现出卓越的可扩展性。
拓展网络深度需要消耗计算量，未来研究将探索额外的构建模块以进一步发展该方法。

❓

延伸问答

自监督强化学习的主要创新点是什么？

自监督强化学习结合了自监督学习与强化学习，采用对比强化学习算法，显著提升了性能。

将网络深度扩展到1000层有什么效果？

将网络深度扩展到1000层可以在机器人任务中性能提高最多50倍，特别是在无监督目标任务中。

研究中使用了哪些技术来稳定训练过程？

研究采用了残差连接、层归一化和Swish激活函数等多种架构技术来稳定训练过程。

深层网络在强化学习中表现出哪些新行为？

随着网络深度的增加，智能体在虚拟环境中表现出新行为，如在深度256时学会越过迷宫高墙。

研究对比强化学习的优势是什么？

对比强化学习通过增加数据量和网络深度，能够学习到更好的对比表征，提高AI的泛化能力。

未来的研究方向是什么？

未来研究将探索额外的构建模块以进一步发展自监督强化学习方法，同时使用分布式训练提升算力。

🏷️

继续阅读

LWD——结合“分布式隐式价值学习与基于QAM的策略提取”的RL策略框架，先离线RL预训练，后在线RL微调
本文讨论了在真实世界中部署通用机器人策略的挑战，提出了一种名为“部署中学习”（LWD）的框架，通过车队规模的离线到在线强化学习（RL）实现策略的持续改进。...
OpenAI的新安全模型仅面向‘关键网络防御者’
OpenAI即将推出新的网络安全模型GPT-5.5-Cyber，首批仅向“可信的网络防御者”发布。CEO萨姆·阿尔特曼表示，此次有限发布旨在增强机构的网络...
网络质量是收入问题，而非技术问题
电信运营商生成大量运营数据，但网络性能数据与商业数据之间缺乏有效连接。Databricks Genie能够帮助网络运营中心快速识别网络故障对企业客户的影响...
小米最新人形机器人的手，会「出汗」了
小米最新发布的人形机器人CyberOne V2在投资者大会上亮相。该机器人高178cm，重52kg，具备22-27个自由度的灵巧手，能够进行精细操作，并配...
保罗·梅尔基奥雷：Posette 2026
An Event for Postgres (pronounced /Pō-zet/, and formerly called Citus Con) is...
OpenClaw v2026.4.29：从消息控制到记忆系统彻底进化
这一版主打三件事：让自动化对话更听话、让记忆系统更懂人、让底层基础设施更稳。五个板块一共塞了二十多项改进，从消息流转到安全扫描，从模型接入到网关修复，覆盖...