小红花·文摘

本文提出了一种结合人类反馈的强化学习方法，旨在解决多智能体强化学习中系统行为与用户偏好的对齐问题。该方法优化无人水面器群策略，克服信贷分配挑战，同时确保公平性和性能一致性。