小红花·文摘 - 小红花技术领袖俱乐部

本研究提出了UniCBE框架，解决了基于比较的评估方法在单一目标优化中未能有效利用偏好信号的问题。该框架通过整合多个采样概率矩阵，显著提高了评估的准确性和收敛性，节省了17%的评估预算，并展示了优越的表现和可扩展性。

A Unified Comparison-Based Evaluation Framework Driven by Unified Multi-Objective Optimization

BriefGPT - AI 论文速递 ·

本研究提出自我引导优化（SSO）算法，解决自动对齐中缺乏人类标注偏好信号的问题。SSO通过迭代训练自动生成高质量偏好信号，显著提升基础模型性能，支持奖励模型优化。

Aligning Large Language Models through Self-Guided Optimization

BriefGPT - AI 论文速递 ·