清晰偏好留下痕迹:基于参考模型的偏好学习采样方法
📝
内容提要
本研究解决了偏好学习中高质量样本获取的困难。通过发现参考模型的概率空间能够自然识别高质量训练样本,提出了一种新的采样策略,显著提高了学习性能,同时减少了训练数据使用量,尤其在技术任务上表现优异。
➡️
本研究解决了偏好学习中高质量样本获取的困难。通过发现参考模型的概率空间能够自然识别高质量训练样本,提出了一种新的采样策略,显著提高了学习性能,同时减少了训练数据使用量,尤其在技术任务上表现优异。