华为云官方博客 ·

AReaL x 昇腾，加速大模型全异步RL训练创新

💡 原文中文，约5200字，阅读约需13分钟。

📝

内容提要

AReaL框架通过全异步强化学习训练，简化大模型开发，提升训练效率和系统可靠性。其核心优势在于解耦式Agentic RL和Single Controller架构，支持在昇腾平台高效运行，优化权重更新和显存使用，帮助开发者快速上手。

🎯

🔎

AReaL框架采用全异步RL训练系统，显著提升了算力利用率。传统RL训练系统中，生成和训练的强绑定会导致算力浪费，而AReaL通过解耦这两者，使得即使在序列长度差异较大的情况下，算力也能得到充分利用。这一特性对于需要快速迭代和高效训练的大模型开发尤为重要。

AReaL的Single Controller架构使得资源控制更加灵活，能够快速应对异常情况。与传统的SPMD架构相比，AReaL将调度和计算分开，允许开发者轻松添加或修改训练资源。这种设计不仅提高了系统的可靠性，也为开发者提供了更大的操作自由度，适应不同的训练需求。

权重Resharding在AReaL框架中起到了连接训练与推理的关键作用。通过快速重组权重格式，AReaL能够避免训练与推理之间的等待瓶颈，从而提升RL迭代效率。这一特性对于大规模模型的实时更新和部署至关重要，尤其是在商业应用中，能够显著提高响应速度和用户体验。

❓

AReaL框架通过全异步强化学习训练，简化大模型开发，提升训练效率和系统可靠性。

AReaL的核心优势包括全异步RL训练系统、Single Controller架构和解耦式Agentic RL。

在昇腾平台上使用AReaL框架需要拉取Docker镜像，启动容器，安装AReaL，并运行相应的训练脚本。

AReaL通过全异步RL训练系统解耦生成和训练，提升算力利用率，从而提高训练效率。

解耦式Agentic RL提升了智能体开发效率和系统可维护性，避免了代码复用性差的问题。

AReaL框架在昇腾平台上提供Docker镜像和可复现的运行教程，支持大规模RL训练。

🏷️