量子位 ·

小米最新大模型成果！罗福莉现身了

💡 原文中文，约3100字，阅读约需8分钟。

📝

内容提要

小米与北大合作发布论文，提出R3方法，解决MoE架构中强化学习的稳定性与效率问题。研究表明，R3有效提升模型性能，减少崩溃，优化学习过程。罗福莉等人参与研究。

🎯

🔎

R3方法通过锁定路由分布，解决了MoE架构中强化学习的稳定性问题。这一创新不仅提升了模型性能，还有效减少了训练过程中的崩溃现象，为大规模模型的训练提供了新的思路，可能会影响未来AI模型的设计与应用。

强化学习在大规模模型训练中面临效率与稳定性的权衡。R3方法通过路由重放机制，确保训练与推理阶段的一致性，降低了模型崩溃的风险。这一策略为解决强化学习中的灾难性崩溃提供了有效的解决方案，值得关注。

实验结果显示，R3在多种场景下表现优于传统方法，训练稳定性显著提高。这意味着在实际应用中，采用R3方法的模型能够更快找到优化策略，适用于复杂的Agent任务，具有广泛的应用潜力。

❓

论文提出了R3方法，解决了MoE架构中强化学习的稳定性与效率问题。

R3通过锁定路由分布，解决了训练与推理阶段的不一致问题，从而提升了模型性能。

强化学习面临效率与稳定性的权衡，追求高效率可能导致训练不稳定。

R3与前缀缓存系统无缝衔接，保持计算效率，同时解决了路由选择不一致的问题。

实验结果表明，R3在多种场景下表现优于传统方法，训练稳定性显著提高。

论文的第一作者是Wenhan Ma，通讯作者为罗福莉和穗志方。

🏷️