小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI
融合图神经网络与无监督语言模型,对RNA-蛋白质相互作用精准预测

华中师范大学与美国华盛顿大学和达特茅斯学院合作推出ZHMolGraph模型,结合图神经网络与无监督语言模型,显著提升RNA-蛋白质相互作用预测的准确性。该模型在基准数据集上取得79.8%的AUROC和82.0%的AUPRC,成为全基因组RNA-蛋白质预测的可靠工具。

融合图神经网络与无监督语言模型,对RNA-蛋白质相互作用精准预测

机器之心
机器之心 · 2025-03-10T09:09:00Z

本文提出了DPO(直接偏好优化)算法,解决了无监督语言模型的可控性问题,优于传统的RLHF方法。同时,研究引入了MinorDPO和TSO框架,增强了模型与人类偏好的对齐能力,提高了训练的稳定性和鲁棒性。通过自我对弈和主动学习策略,优化了偏好数据的学习效率。

自监督偏好优化:提升语言模型的偏好程度意识

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-09-26T00:00:00Z

本文提出了一种新的算法DPO(直接偏好优化),旨在解决无监督语言模型的可控性问题。与传统的RLHF方法相比,DPO在稳定性和简单性上表现更佳。此外,研究引入了MPO(混合偏好优化)方法,通过两阶段训练提升模型性能,并提出了fDPO方法以监控文本质量,进一步改善模型效果。研究表明,DPO在特定条件下能有效识别未见数据中的偏好响应,增强了模型的实际应用价值。

隐式奖励模型的有限泛化能力研究

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-09-05T00:00:00Z

研究探讨了奖励最大化与分布匹配的关系,提出了DPO算法以提高无监督语言模型的可控性。DPO在稳定性和性能上优于传统方法,并结合噪声对比评估(NCE)提升模型对齐效果。此外,研究还提出了因果偏好优化(CPO)和软偏好优化(SPO)方法,以优化大型语言模型的生成质量并解决训练数据中的噪声问题。

奖励优良示例与惩罚不良示例的语言模型梯度分析框架

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-08-29T00:00:00Z

本文介绍了一种名为DPO的算法,旨在解决无监督语言模型的可控性问题,表现优于传统的RLHF方法。研究了奖励模型的一致性,并提出了ConvexDA和RewardFusion技术,以提升模型训练效果。此外,介绍了Themis工具,增强了偏好建模能力,显著改善了任务表现。通过生成合成偏好数据,提出了改进奖励模型的新方法,开辟了强化学习对齐的新研究领域。

Public Critique of Reward Models

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-08-21T00:00:00Z

本文介绍了一种名为DPO(直接偏好优化)的算法,旨在解决无监督语言模型的可控性问题。与传统的RLHF方法相比,DPO在稳定性和性能上表现更佳。同时,提出了MPO(混合偏好优化)方法,结合了DPO和RLHF的优点,并利用贝叶斯奖励模型和主动学习策略,进一步提高了模型的学习效率和性能。

大规模语言模型对线机恁学习的离维匀整进化

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-05-29T00:00:00Z

本文介绍了一种名为直接偏好优化(DPO)的算法,旨在解决无监督语言模型的可控性问题。与传统的强化学习与人类反馈(RLHF)方法相比,DPO在稳定性和简便性上表现更佳。研究还提出了混合偏好优化(MPO)方法,通过两阶段训练提升对齐性能。此外,文章探讨了DPO与邻近策略优化(PPO)的算法特性,并提出了RS-DPO和Trust Region DPO等新方法,以进一步改善模型质量和与用户意图的一致性。

从 $r$ 到 $Q^*$:您的语言模型暗地里是一个 Q 函数

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-04-18T00:00:00Z

本文介绍了一种名为直接偏好优化(DPO)的算法,旨在解决无监督语言模型的可控性问题。DPO相较于传统的强化学习方法(RLHF)表现更好且更稳定。研究还提出了Diffusion-DPO方法,通过人类比较数据优化扩散模型,以提高视觉吸引力和文本对齐性。此外,提出了混合偏好优化(MPO)和带有偏移量的DPO(ODPO)等新方法,进一步提升了模型的对齐性能和效率。

Token-Level Direct Preference Optimization

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-04-18T00:00:00Z

本文介绍了一种名为直接偏好优化(DPO)的算法,旨在解决无监督语言模型的可控性问题。研究表明,DPO在性能和稳定性上优于传统的强化学习方法。结合拒绝采样和DPO,提出的RS-DPO方法在资源有限的环境中有效精调大型语言模型,提高了与用户意图的一致性。此外,研究还探讨了优化回应长度和引入约束DPO(C-DPO)方法,以提升AI系统的安全性和有用性。

直接偏好优化中的长度与质量解耦

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-03-28T00:00:00Z

本文介绍了一种名为直接偏好优化(DPO)的算法,旨在解决无监督语言模型的可控性问题。DPO相较于传统强化学习方法表现更佳且更稳定。此外,研究提出了Diffusion-DPO方法,通过优化扩散模型与人类偏好匹配,显著提高了视觉吸引力和提示对齐。MODPO算法则通过多反馈训练不同模型,提升了生成多样化解决方案的效率。

混合偏好优化:通过数据选择和更好的参考模型进行强化学习

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-03-28T00:00:00Z
更好的语言模型及其影响

我们训练了一个大规模的无监督语言模型,能够生成连贯文本,并在多项语言建模基准上表现优异,具备基本的阅读理解、机器翻译、问答和摘要能力,无需特定任务训练。

更好的语言模型及其影响

OpenAI
OpenAI · 2019-02-14T08:00:00Z
  • <<
  • <
  • 1 (current)
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
友情链接: MOGE.AI 九胧科技 模力方舟 Gitee AI 菜鸟教程 Remio.AI DeekSeek连连 53AI 神龙海外代理IP IPIPGO全球代理IP 东波哥的博客 匡优考试在线考试系统 开源服务指南 蓝莺IM Solo 独立开发者社区 AI酷站导航 极客Fun 我爱水煮鱼 周报生成器 He3.app 简单简历 白鲸出海 T沙龙 职友集 TechParty 蟒周刊 Best AI Music Generator

小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码