小红花·文摘

本研究提出了一种基于双人博弈的通用偏好模型，克服了现有大型语言模型偏好对齐方法的局限。通过引入乐观在线镜面下降算法，理论上改善了双重间隙界限，实验结果表明其在多个基准测试中优于现有算法。