本文提出了直接引导优化(DSO),通过强化学习调整模型激活,以减轻偏见并保持模型性能。研究表明,DSO在公平性与能力之间实现了最佳平衡,优于传统启发式方法。
完成下面两步后,将自动完成登录并继续当前操作。