本研究提出三种适用于合作、对抗和混合环境的演员-评论家算法,解决多智能体强化学习中去中心化训练的不足。通过引入网络通信和替代策略,去中心化算法在降低计算成本的同时,能与原始MADDPG算法达到相似效果,尤其在代理数量较多时更为明显。
Prime Intellect于11月22日宣布完成去中心化训练的10B模型INTELLECT-1,并开源相关资源。该模型在112台H100 GPU上训练,展示了去中心化训练的潜力。尽管汉语能力较弱,但整体获得AI社区积极反馈。未来,Prime Intellect计划扩大模型规模,推动开源AGI发展。
完成下面两步后,将自动完成登录并继续当前操作。