小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI

本研究探讨了在AI系统中减少欺骗行为的方法,提出将说谎探测器融入偏好学习。分析DolusChat数据集后发现,结合说谎探测器的训练在特定条件下可以促进诚实行为,但也可能导致逃避行为,揭示了监督的复杂性和挑战。

Preference Learning with Lie Detectors Can Induce Honesty or Evasion

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-05-20T00:00:00Z

本研究提出了一种语言指导偏好学习(LGPL)方法,旨在优化机器人在社会环境中的互动行为。该方法结合预训练语言模型与偏好学习,仅需四个查询即可快速学习出准确且富有表现力的四足动物行为,显著提高样本效率。

Efficiently Generating Expressive Quadruped Behaviors via Language-Guided Preference Learning

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-02-06T00:00:00Z

本研究提出了时间偏好优化(TPO)框架,以解决长视频理解中的时间基准问题。通过自我训练和偏好学习,显著提升了模型的时间理解能力,展示了TPO在长视频理解中的潜力。

Temporal Preference Optimization for Long Video Understanding

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-01-23T00:00:00Z

本文探讨了离线强化学习中的偏好学习方法,提出了新算法OPPO和PRDC,旨在优化策略并解决偏好不一致问题。研究表明,这些方法在多目标设置中有效提升学习性能,并在不同数据集上取得优异结果。

离线偏好强化学习中的数据集内轨迹返回正则化

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-12-12T00:00:00Z

本研究探讨了大型语言模型(LLM)与人类偏好对齐的复杂性,提出了一个统一框架,将偏好学习策略分为模型、数据、反馈和算法四个部分。研究还提出了一种优化偏好实例选择的方法,显著提升了奖励模型的性能,并解决了高成本和时间问题。通过改进反馈机制,增强了奖励学习效果,为未来研究提供了新方向。

超越二元选择:通过奖励正则化捕捉多样化偏好

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-12-05T00:00:00Z

本研究提出了DecompGen框架,通过将多模态大型语言模型(MLLMs)的响应分解为原子验证任务,并利用专家模型进行评估,自动构建偏好数据集DGPref。实验结果表明,经过偏好学习的MLLMs在可信度上显著提升,验证了该方法的有效性。

Improving the Trustworthiness of Multimodal Large Language Models by Decomposing and Leveraging Preferences from Expert Models

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-11-20T00:00:00Z

本文提出了一种统一框架,解决大型语言模型(LLM)与人类偏好对齐的复杂性问题。通过将偏好学习策略分解为模型、数据、反馈和算法四个部分,研究揭示了不同方法间的关联性,并提出了改进逻辑一致性的技术,以提高模型的可靠性和一致性。

基于字典模型的偏好语言的高效推理与最优选择计算

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-10-31T00:00:00Z

本文研究了多种偏好学习算法及其在决策模型中的应用,提出了新的程序和算法以提高偏好聚合的效率和一致性。通过引入可控偏好优化(CPO)和可分性指标,改善了大语言模型(LLM)的逻辑一致性和偏好评估,强调了逻辑一致性在构建可靠系统中的重要性。研究结果表明,改进的算法在处理复杂偏好问题时表现优越。

基于层次模型的偏好一致性问题的快速算法研究

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-10-31T00:00:00Z

本研究提出了一种新框架,评估偏好学习模型的认知公平性,借鉴经济不平等和罗尔斯公正理论,揭示模型在用户表现上的差异,并探讨缓解不平等的技术,对AI伦理发展具有重要意义。

From Efficiency to Fairness: Measuring Fairness in Preference Learning

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-10-24T00:00:00Z

本文研究大型语言模型(LLMs)与人类偏好对齐的复杂性,提出了一个统一框架,将偏好学习策略分为模型、数据、反馈和算法四个部分。通过直接偏好优化(DPO)和混合偏好优化(MPO),提升了模型对用户偏好的理解和适应性,显著增强了偏好学习能力,并推动了未来的研究方向。

通过直接偏好优化大型语言模型:数据效率视角

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-10-22T00:00:00Z

研究探讨大型语言模型中监督微调与偏好学习的相互影响,提出新的联合后训练框架。理论证明顺序训练效果不佳,实验显示新框架在相同计算成本下优于传统方法。

Mitigating Forgetting in Supervised Fine-Tuning and Preference Learning of Large Language Models

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-10-20T00:00:00Z

本文探讨大型语言模型(LLMs)与人类偏好的对齐问题,提出了一种统一框架,将偏好学习策略分解为模型、数据、反馈和算法四个部分,以深入理解现有对齐算法并探索未来研究方向。研究表明,人类与模型在偏好上存在显著差异,突显了对齐任务的复杂性和挑战。

揭示因素级偏好以改善人类-模型对齐

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-10-09T00:00:00Z

本文研究大型语言模型(LLM)与人类偏好的对齐问题,提出了一种统一框架,将偏好学习策略分解为模型、数据、反馈和算法四个部分,以深入理解现有对齐算法并探索未来研究方向。通过改进方法,增强了模型对用户偏好的理解和适应性,推动了偏好对齐的发展。

利用合成偏好数据自增强大型语言模型

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-10-09T00:00:00Z

UPET是一个自训练框架,旨在解决标记数据稀缺问题。通过不确定性估计和伪标记样本选择,优化参数学习。研究还探讨了因果语言优化和偏好学习方法,提升大型语言模型的推理能力和性能。采用多参考模型偏好优化(MRPO)和自我增强式偏好优化(SAPO),有效提高了模型对人类偏好的遵循性和输出多样性。

通过增强不确定性的偏好优化实现自我进化的大型语言模型

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-09-17T00:00:00Z

本文提出了一种适用于大型配置空间的偏好获取方法,利用集合最大间隔法生成多样化项目以询问用户。研究介绍了基于Choice Perceptron的算法,解决用户偏好学习问题,并提出了新颖的偏好学习方法和优化模型,显著提升了多准则排序的性能。

基于增量偏好引导的多标准排序中学习潜在非单调偏好的方法

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-09-04T00:00:00Z

本文提出了多种优化方法以提高偏好学习的效率,包括注重质量和多样性的标注策略、混合优化算法(HyPO)和对抗式偏好优化框架(APO)。研究表明,这些方法在处理噪声和提升模型性能方面表现优越,尤其在大型语言模型的训练中具有重要意义。

Not All Preference Pairs Are Equal: A Recipe for Efficient Iterative Preference Learning

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-06-25T00:00:00Z

本文探讨了偏好学习技术,重点介绍了强化学习与人类反馈(RLHF)和直接偏好优化(DPO)两种方法。提出了混合偏好优化(MPO)和探索性偏好优化(XPO)等新算法,以提高模型的稳定性和样本效率。这些方法在对齐大型语言模型方面表现出色,能够有效捕捉人类偏好并优化生成策略。

WPO: 加强 RLHF 的加权偏好优化

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-06-17T00:00:00Z

该研究提出了一种数据增强框架,通过预训练和微调生成伪数据,提升了PLMC在代码摘要和生成方面的性能。采用偏好学习方法整合医生诊断逻辑,提高医疗对话的准确性。研究分析了人类与语言模型的偏好差异,发现偏好评估可被操控,并提出了组合偏好模型和多语言PLMs的优化策略,以提升模型的泛化能力和性能。

PLUM: 偏好学习加测试用例产生更好的代码语言模型

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-06-11T00:00:00Z

本文探讨了大型语言模型(LLMs)对齐技术,重点介绍了偏好学习及其优化方法,包括强化学习与人类反馈(RLHF)和直接偏好优化(DPO)。研究提出了混合偏好优化(MPO)和广义偏好优化(GPO),旨在提高模型的稳定性和数据效率。实验结果表明,这些新方法在对齐性能上优于传统方法,提供了对偏好优化的统一视角和实证洞见。

通过覆盖度了解偏好微调

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-06-03T00:00:00Z

本文提出了一种结合演示和偏好查询的框架,用于学习机器人奖励函数。实验表明,该方法在效率和性能上优于传统偏好学习方法,更好地匹配用户行为偏好,减轻人类专家的负担。

实用特征偏好:从人类输入中学习与奖励相关的偏好

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-05-23T00:00:00Z
  • <<
  • <
  • 1 (current)
  • 2
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
友情链接: MOGE.AI 九胧科技 模力方舟 Gitee AI 菜鸟教程 Remio.AI DeekSeek连连 53AI 神龙海外代理IP IPIPGO全球代理IP 东波哥的博客 匡优考试在线考试系统 开源服务指南 蓝莺IM Solo 独立开发者社区 AI酷站导航 极客Fun 我爱水煮鱼 周报生成器 He3.app 简单简历 白鲸出海 T沙龙 职友集 TechParty 蟒周刊 Best AI Music Generator

小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码