Apple Machine Learning Research ·

通过可扩展的中期训练强化学习学习作为行动抽象的推理

💡 原文英文，约500词，阅读约需2分钟。

📝

内容提要

本文探讨了中期训练强化学习（RL）的重要性，提出了一种名为“作为行动抽象的推理”（RA3）的算法。RA3通过优化行动子空间，提升了模型在代码生成任务中的表现，平均提高了8分和4分，并在多个基准测试中实现了更快的收敛和更高的性能。

🎯

❓

中期训练强化学习对于充分发挥大型语言模型的潜力至关重要，能够识别有用的动作并实现快速选择。

RA3算法旨在优化行动子空间，从而提升模型在代码生成任务中的表现。

RA3在代码生成任务中平均提高了8分和4分，并在多个基准测试中实现了更快的收敛和更高的性能。

中期训练的有效性主要受修剪效率和对RL收敛的影响这两个关键因素的影响。

RA3通过迭代发现时间一致的潜在结构，并在引导数据上进行微调来优化。

在行动抽象空间中操作可以使决策空间更紧凑，且有效的时间范围较短，从而提高中期训练的效果。

🏷️

LWD——结合“分布式隐式价值学习与基于QAM的策略提取”的RL策略框架，先离线RL预训练，后在线RL微调
本文讨论了在真实世界中部署通用机器人策略的挑战，提出了一种名为“部署中学习”（LWD）的框架，通过车队规模的离线到在线强化学习（RL）实现策略的持续改进。...
Zed 1.0协议风波：你的代码被用来做训练数据
Zed 1.0协议引发了开发者对数据使用权和隐私的担忧。模糊的条款导致用户误解，认为自己的代码可能被滥用。AI补全功能需要访问用户代码，可能导致数据外流。...
Rivian’s revenue is up as R2 production kicks into gear
Rivian reported its first quarter earnings of 2026, providing us a closer loo...
Rivian downsizes its goals for its EV factory in Georgia
Rivian announced some changes today with regard to the factory its building i...
The logic of the racist Supreme Court isn’t adding up
Close watchers of the Supreme Court knew that the conservative supermajority ...
人工智能沙箱正迎来其Kubernetes时刻
Recently, Anthropic announced that its new model, Mythos, had autonomously fo...