多智能体政策学习的低秩代理特定适应(LoRASA)

📝

内容提要

本研究解决了多智能体强化学习中的政策共享导致的代理专业化不足的问题。提出的低秩代理特定适应(LoRASA)方法通过将小型低秩适应矩阵附加到共享政策的每一层,促进了代理的个性化专业化和扩展性。实验结果显示,LoRASA在多个基准测试中表现优异,有望为多智能体强化学习的政策参数化树立新标准。

🏷️

标签

➡️

继续阅读