小红花·文摘

该研究提出了Anyprefer框架，旨在解决高质量偏好数据稀缺的问题。通过设计合作的马尔可夫游戏，提升偏好数据合成质量，并引入外部工具和反馈机制以减少偏误。实验结果表明，Anyprefer显著提高了模型的对齐性能，并提供了包含58K高质量偏好对的新数据集Anyprefer-V1。