该研究提出了Anyprefer框架,旨在解决高质量偏好数据稀缺的问题。通过设计合作的马尔可夫游戏,提升偏好数据合成质量,并引入外部工具和反馈机制以减少偏误。实验结果表明,Anyprefer显著提高了模型的对齐性能,并提供了包含58K高质量偏好对的新数据集Anyprefer-V1。
本研究提出了多智能体环境中的随时约束均衡(ACE)概念,发展了随时约束马尔可夫游戏理论,包含可行策略计算特征和多项式时间算法,并展示了最优解的近似保证。
完成下面两步后,将自动完成登录并继续当前操作。