小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI
COMPASS:一个针对工具辅助规划与偏好优化的多轮基准测试

COMPASS是一个评估工具,专注于现实旅行规划场景,将旅行规划视为约束偏好优化问题,要求在满足硬性约束的同时优化用户偏好。研究表明,现有模型在多服务协调任务中表现不佳,尤其是开源模型。COMPASS旨在通过实际用户场景评估代理优化用户偏好的能力。

COMPASS:一个针对工具辅助规划与偏好优化的多轮基准测试

Apple Machine Learning Research
Apple Machine Learning Research · 2025-12-11T00:00:00Z

本文探讨大型语言模型在金融任务中的应用,利用监督微调、偏好优化和强化学习等技术,显著提升模型性能,展现其在金融领域的广泛潜力。

Large Language Models and Finance: Fine-tuning Base Models for Open Financial LLM Rankings

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-04-17T00:00:00Z
ICLR&CVPR 2025美团技术团队论文精选

ICLR(国际学习表征会议)是深度学习领域的重要会议,2025年排名第10。文章介绍了多篇论文,涉及大语言模型对齐、偏好优化和图像生成等技术,提出新方法和框架,提升模型性能与应用潜力。

ICLR&CVPR 2025美团技术团队论文精选

美团技术团队
美团技术团队 · 2025-04-14T00:00:00Z

本研究提出了2D-Curri-DPO框架,克服了传统偏好优化方法的局限性,通过建模复杂性和可区分性,提升了训练的稳定性和优化效果。实验结果表明,该框架在多个基准测试中表现优异。

2D Curriculum Learning for Direct Preference Optimization

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-04-10T00:00:00Z

本研究提出AdPO方法,旨在提高大规模视觉语言模型(LVLMs)在对抗攻击下的鲁棒性。通过将对抗训练重新定义为偏好优化,AdPO增强了模型生成正常输出的能力,实验结果表明其在多个任务中优于现有防御方法。

AdPO: Enhancing the Adversarial Robustness of Large Vision-Language Models through Preference Optimization

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-04-02T00:00:00Z

本研究提出了一种新的ReLU-based Preference Optimization (RePO)算法,旨在解决大型语言模型与人类偏好对齐中的计算和稳定性问题。RePO简化了调参过程,提升了模型性能,实验证明其在多个基础模型上优于现有方法DPO和SimPO。

RePO: ReLU-based Preference Optimization

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-03-10T00:00:00Z

本研究提出了一种基于信心奖励的偏好优化方法(CRPO),旨在提升机器翻译的数据质量。结果表明,CRPO在翻译准确性和数据效率方面优于现有方法,具有广泛的应用潜力。

基于信心奖励的偏好优化方法CRPO用于机器翻译

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-01-23T00:00:00Z

本研究提出特征级约束偏好优化(FPO)方法,旨在提高大语言模型与人类偏好的对齐效率和训练稳定性。实验结果显示,FPO使赢率提升5.08%,并降低计算成本,为高效对齐提供了新方案。

使用稀疏特征级约束的直接偏好优化

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-11-12T00:00:00Z
ORPO、DPO与PPO:为人类偏好优化模型

在大型语言模型(LLM)中,优化响应以符合人类偏好至关重要。DPO(直接偏好优化)、ORPO(赔率比偏好优化)和PPO(近端策略优化)是三种关键技术,旨在提升用户体验。DPO通过分类损失直接优化响应,ORPO结合指令调优与偏好对齐,而PPO确保训练过程的稳定性。这些方法帮助生成更符合用户期望的响应。

ORPO、DPO与PPO:为人类偏好优化模型

DEV Community
DEV Community · 2024-11-08T11:37:24Z

本研究提出Align-SLM框架,通过偏好优化提升无文本口语语言模型(SLMs)的语义理解,解决其在语义连贯性和相关性方面的不足。实验结果表明,该方法在大多数基准测试中达到了SLMs的最新性能。

Align-SLM: Reinforcement Learning for Textless Spoken Language Models Based on AI Feedback

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-11-04T00:00:00Z

本研究提出了一种基于投票的偏好优化框架(VPO),通过贝叶斯最小均方误差估计器改进生成结果,显著增强了对齐多样主观偏好的能力,实验结果表明其性能优于现有方法。

VPO:利用投票数量进行偏好优化

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-10-30T00:00:00Z

该研究提出了$f$-散度偏好优化框架($f$-PO),旨在解决现有方法在与人类偏好对齐方面的不足,并通过实验验证了其在多个任务中的优越性,推动了语言模型对齐的发展。

Generalized Preference Optimization via $f$-Divergence Minimization

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-10-29T00:00:00Z

本研究提出了一种多图像增强直接偏好优化(MIA-DPO)方法,旨在解决多图像任务中的数据稀缺和高标注成本问题。该方法通过构建选择/拒绝对,降低了标注成本,并在基准测试中提升了3.0%-4.3%的性能,同时改善了复杂场景的表现。

Multi-Image Enhanced Direct Preference Optimization for Large Vision-Language Models

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-10-23T00:00:00Z

本研究提出一种结合偏好优化和强化学习的递归学习方法,提升小型语言模型的推理能力和反思性。通过动态知识图谱和自我教学,模型不断提高推理质量,特别在生物材料科学领域展现出强大的适应性和应用潜力。

基于偏好的递归语言建模的推理和主动思维探索优化

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-10-16T00:00:00Z

该文章介绍了一种创新框架,用于解决电子商务搜索中的挑战,包括生成商品标题、处理语言顺序噪声、长尾查询和结果解释性。通过生成多段标识符简化生成过程并提高结果解释性。在真实数据集上获得了竞争性的性能,并通过在线A/B测试验证了其显著的转化增益效果。

电子商务搜索中基于偏好优化的生成式检索

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-07-29T00:00:00Z

本文介绍了一种通过渐进学习框架改进强模型训练数据的方法,通过有监督微调和偏好优化,显著提高了推理能力。实验证明该方法有效,为提升人工智能推理能力提供了策略。

弱到强的推理

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-07-18T00:00:00Z

本文介绍了强化学习中的偏好优化方法ΨPO,通过绕过近似分析RLHF和DPO,揭示了它们的潜在缺陷。作者还通过实证表明ΨPO在性能上优于DPO。

WPO: 加强 RLHF 的加权偏好优化

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-06-17T00:00:00Z
  • <<
  • <
  • 1 (current)
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
友情链接: MOGE.AI 九胧科技 模力方舟 Gitee AI 菜鸟教程 Remio.AI DeekSeek连连 53AI 神龙海外代理IP IPIPGO全球代理IP 东波哥的博客 匡优考试在线考试系统 开源服务指南 蓝莺IM Solo 独立开发者社区 AI酷站导航 极客Fun 我爱水煮鱼 周报生成器 He3.app 简单简历 白鲸出海 T沙龙 职友集 TechParty 蟒周刊 Best AI Music Generator

小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码