小红花·文摘

本研究探讨了在AI系统中减少欺骗行为的方法，提出将说谎探测器融入偏好学习。分析DolusChat数据集后发现，结合说谎探测器的训练在特定条件下可以促进诚实行为，但也可能导致逃避行为，揭示了监督的复杂性和挑战。

Preference Learning with Lie Detectors Can Induce Honesty or Evasion

BriefGPT - AI 论文速递 ·

本研究提出了一种语言指导偏好学习（LGPL）方法，旨在优化机器人在社会环境中的互动行为。该方法结合预训练语言模型与偏好学习，仅需四个查询即可快速学习出准确且富有表现力的四足动物行为，显著提高样本效率。

Efficiently Generating Expressive Quadruped Behaviors via Language-Guided Preference Learning

BriefGPT - AI 论文速递 ·

本研究提出了时间偏好优化（TPO）框架，以解决长视频理解中的时间基准问题。通过自我训练和偏好学习，显著提升了模型的时间理解能力，展示了TPO在长视频理解中的潜力。

Temporal Preference Optimization for Long Video Understanding

BriefGPT - AI 论文速递 ·

本文探讨了离线强化学习中的偏好学习方法，提出了新算法OPPO和PRDC，旨在优化策略并解决偏好不一致问题。研究表明，这些方法在多目标设置中有效提升学习性能，并在不同数据集上取得优异结果。

离线偏好强化学习中的数据集内轨迹返回正则化

BriefGPT - AI 论文速递 ·

本研究探讨了大型语言模型（LLM）与人类偏好对齐的复杂性，提出了一个统一框架，将偏好学习策略分为模型、数据、反馈和算法四个部分。研究还提出了一种优化偏好实例选择的方法，显著提升了奖励模型的性能，并解决了高成本和时间问题。通过改进反馈机制，增强了奖励学习效果，为未来研究提供了新方向。

超越二元选择：通过奖励正则化捕捉多样化偏好

BriefGPT - AI 论文速递 ·

本研究提出了DecompGen框架，通过将多模态大型语言模型（MLLMs）的响应分解为原子验证任务，并利用专家模型进行评估，自动构建偏好数据集DGPref。实验结果表明，经过偏好学习的MLLMs在可信度上显著提升，验证了该方法的有效性。

Improving the Trustworthiness of Multimodal Large Language Models by Decomposing and Leveraging Preferences from Expert Models

BriefGPT - AI 论文速递 ·

本文提出了一种统一框架，解决大型语言模型（LLM）与人类偏好对齐的复杂性问题。通过将偏好学习策略分解为模型、数据、反馈和算法四个部分，研究揭示了不同方法间的关联性，并提出了改进逻辑一致性的技术，以提高模型的可靠性和一致性。

基于字典模型的偏好语言的高效推理与最优选择计算

BriefGPT - AI 论文速递 ·

本文研究了多种偏好学习算法及其在决策模型中的应用，提出了新的程序和算法以提高偏好聚合的效率和一致性。通过引入可控偏好优化（CPO）和可分性指标，改善了大语言模型（LLM）的逻辑一致性和偏好评估，强调了逻辑一致性在构建可靠系统中的重要性。研究结果表明，改进的算法在处理复杂偏好问题时表现优越。

基于层次模型的偏好一致性问题的快速算法研究

BriefGPT - AI 论文速递 ·

本研究提出了一种新框架，评估偏好学习模型的认知公平性，借鉴经济不平等和罗尔斯公正理论，揭示模型在用户表现上的差异，并探讨缓解不平等的技术，对AI伦理发展具有重要意义。

From Efficiency to Fairness: Measuring Fairness in Preference Learning

BriefGPT - AI 论文速递 ·

本文研究大型语言模型（LLMs）与人类偏好对齐的复杂性，提出了一个统一框架，将偏好学习策略分为模型、数据、反馈和算法四个部分。通过直接偏好优化（DPO）和混合偏好优化（MPO），提升了模型对用户偏好的理解和适应性，显著增强了偏好学习能力，并推动了未来的研究方向。

通过直接偏好优化大型语言模型：数据效率视角

BriefGPT - AI 论文速递 ·

研究探讨大型语言模型中监督微调与偏好学习的相互影响，提出新的联合后训练框架。理论证明顺序训练效果不佳，实验显示新框架在相同计算成本下优于传统方法。

Mitigating Forgetting in Supervised Fine-Tuning and Preference Learning of Large Language Models

BriefGPT - AI 论文速递 ·

本文探讨大型语言模型（LLMs）与人类偏好的对齐问题，提出了一种统一框架，将偏好学习策略分解为模型、数据、反馈和算法四个部分，以深入理解现有对齐算法并探索未来研究方向。研究表明，人类与模型在偏好上存在显著差异，突显了对齐任务的复杂性和挑战。

揭示因素级偏好以改善人类-模型对齐

BriefGPT - AI 论文速递 ·

本文研究大型语言模型（LLM）与人类偏好的对齐问题，提出了一种统一框架，将偏好学习策略分解为模型、数据、反馈和算法四个部分，以深入理解现有对齐算法并探索未来研究方向。通过改进方法，增强了模型对用户偏好的理解和适应性，推动了偏好对齐的发展。

利用合成偏好数据自增强大型语言模型

BriefGPT - AI 论文速递 ·

UPET是一个自训练框架，旨在解决标记数据稀缺问题。通过不确定性估计和伪标记样本选择，优化参数学习。研究还探讨了因果语言优化和偏好学习方法，提升大型语言模型的推理能力和性能。采用多参考模型偏好优化（MRPO）和自我增强式偏好优化（SAPO），有效提高了模型对人类偏好的遵循性和输出多样性。

通过增强不确定性的偏好优化实现自我进化的大型语言模型

BriefGPT - AI 论文速递 ·

本文提出了一种适用于大型配置空间的偏好获取方法，利用集合最大间隔法生成多样化项目以询问用户。研究介绍了基于Choice Perceptron的算法，解决用户偏好学习问题，并提出了新颖的偏好学习方法和优化模型，显著提升了多准则排序的性能。

基于增量偏好引导的多标准排序中学习潜在非单调偏好的方法

BriefGPT - AI 论文速递 ·

本文提出了多种优化方法以提高偏好学习的效率，包括注重质量和多样性的标注策略、混合优化算法（HyPO）和对抗式偏好优化框架（APO）。研究表明，这些方法在处理噪声和提升模型性能方面表现优越，尤其在大型语言模型的训练中具有重要意义。

Not All Preference Pairs Are Equal: A Recipe for Efficient Iterative Preference Learning

BriefGPT - AI 论文速递 ·

本文探讨了偏好学习技术，重点介绍了强化学习与人类反馈（RLHF）和直接偏好优化（DPO）两种方法。提出了混合偏好优化（MPO）和探索性偏好优化（XPO）等新算法，以提高模型的稳定性和样本效率。这些方法在对齐大型语言模型方面表现出色，能够有效捕捉人类偏好并优化生成策略。

WPO: 加强 RLHF 的加权偏好优化

BriefGPT - AI 论文速递 ·

该研究提出了一种数据增强框架，通过预训练和微调生成伪数据，提升了PLMC在代码摘要和生成方面的性能。采用偏好学习方法整合医生诊断逻辑，提高医疗对话的准确性。研究分析了人类与语言模型的偏好差异，发现偏好评估可被操控，并提出了组合偏好模型和多语言PLMs的优化策略，以提升模型的泛化能力和性能。

PLUM: 偏好学习加测试用例产生更好的代码语言模型

BriefGPT - AI 论文速递 ·

本文探讨了大型语言模型（LLMs）对齐技术，重点介绍了偏好学习及其优化方法，包括强化学习与人类反馈（RLHF）和直接偏好优化（DPO）。研究提出了混合偏好优化（MPO）和广义偏好优化（GPO），旨在提高模型的稳定性和数据效率。实验结果表明，这些新方法在对齐性能上优于传统方法，提供了对偏好优化的统一视角和实证洞见。

通过覆盖度了解偏好微调

BriefGPT - AI 论文速递 ·

本文提出了一种结合演示和偏好查询的框架，用于学习机器人奖励函数。实验表明，该方法在效率和性能上优于传统偏好学习方法，更好地匹配用户行为偏好，减轻人类专家的负担。

实用特征偏好：从人类输入中学习与奖励相关的偏好

BriefGPT - AI 论文速递 ·