小红花·文摘

本研究提出了一种少样本可调节对齐的新框架，旨在解决大型语言模型与个体用户多样化偏好的对齐问题。该方法通过扩展Bradley-Terry-Luce模型，有效捕捉和对齐人类的异质偏好。