小红花·文摘

本文研究了薪水优化与多目标强化学习，提出了一种新算法以平衡多个财务目标和安全约束。通过强化学习和在线凸优化，确保在未知环境中实现公平性，并展示了算法在复杂任务中的有效性和优势。