小红花·文摘

全球首个分布式强化学习模型INTELLECT-2发布，利用闲置算力进行训练，显著降低成本，性能接近DeepSeek-R1。该模型去中心化，任何人可参与训练，可能改变大公司对算力的垄断。团队已获得Karpathy等投资，未来将扩展去中心化训练。

量子位 ·

本文提出了一种新型分布式强化学习架构，利用归一化流模型返回分布，显著提升了参数效率，并在ATARI-5测试中超越了传统方法。

BriefGPT - AI 论文速递 ·

机器之心 ·

本研究提出了一种新颖的逆强化学习方法，解决了固定奖励分配和隐式奖励正则化的灵活性问题。通过引入平方时间差正则化器和自适应目标动态调整，我们的方法在模仿学习中优化了奖励函数，并结合分布式强化学习，在MuJoCo任务上取得了优异的实验结果。

BriefGPT - AI 论文速递 ·

本文介绍了分布式强化学习的新算法和理论进展，包括EDRL、ER-DQN和CODAC，强调了在不同任务中学习奖励分布和风险规避策略的有效性。同时，研究探讨了离线强化学习的二阶上界及其实际应用优势，提出了新的模型和算法框架，展示了在复杂环境中优化学习的潜力。

BriefGPT - AI 论文速递 ·

本文介绍了一种基于分布式强化学习的方法，通过分位回归逼近状态-动作回报分布，在57个Atari 2600游戏中表现优越。该算法显著优于传统DQN改进方案，并探讨了风险敏感性政策的效果。此外，研究提出了新算法QPO和D4PG，展示了在复杂控制任务中的先进性能。

BriefGPT - AI 论文速递 ·

本研究提出了一种新算法，使多个机器人能够高效协调，平衡中央集权与去中心化的决策。重点关注权重最大化问题，引入非相邻信息的集中化概念，并探讨了基于观察的控制器学习算法和分布式强化学习，以提升多智能体系统的性能。通过结合卷积神经网络和图神经网络，解决了多机器人路径规划中的通信问题，并验证了其有效性。

BriefGPT - AI 论文速递 ·

本文探讨了基于分布式强化学习的电池控制框架，旨在通过能源套利实现系统平衡，优化套利利润与风险。研究提出多种强化学习算法，以提升电网控制系统的安全性和鲁棒性，增强可再生能源和储能发电的操作效率，最终实现市场收益的显著提升和损耗的降低。

BriefGPT - AI 论文速递 ·

本文提出了一种基于随机化和多智能体系统的分布式强化学习算法DLMD-DiffEx，通过与本地邻居通信优化全局回报。研究了在信号传输受限和噪声影响下的分散优化问题，确保局部估计的收敛性，并探讨了动态网络中代理估计的对齐及收敛性分析，展示了良好的收敛效果。

BriefGPT - AI 论文速递 ·

该论文研究了一种分布式强化学习方法，用于实现多智能体马尔可夫决策过程中的网络目标。通过稀疏通信网络上的局部处理和信息交流，实现了代理协作。该分布式方案在几乎确定的情况下，逐渐实现了各个网络层面上的期望值函数和最优静止控制策略。

BriefGPT - AI 论文速递 ·

该文介绍了一种使用分布式强化学习的风险敏感的运动训练方法，可以帮助机器人在危险环境中预防事故。

BriefGPT - AI 论文速递 ·