小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI

本研究提出了一种创新的隐私保护对齐算法DP-AdamW,旨在解决大型语言模型对齐中的隐私问题。在中等隐私预算下,该算法结合直接偏好优化(DPO),使对齐质量提升15%,为隐私保护与对齐效率的平衡提供了实用指导。

Enhanced Differential Privacy Alignment Algorithm for Language Models

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-05-13T00:00:00Z

本文回顾了多模态大型语言模型(MLLM)中的对齐算法,分析了其应用场景、数据集构建、评估方法及未来发展方向。研究指出,现有MLLM在真实性、安全性和推理能力方面仍面临挑战,而对齐算法为解决这些问题提供了有效途径。优化对齐算法可减少模型幻觉现象,提升综合能力,尤其在医学和数学等复杂领域具有巨大应用潜力。

院士领衔万字长文,全面系统梳理多模态LLM对齐算法

量子位
量子位 · 2025-03-23T04:39:18Z

本研究探讨在大型语言模型和多模态模型快速发展背景下,如何确保超人智能的安全性与人类价值观的对齐。提出了“超级对齐”概念,旨在设计有效的对齐算法,从复杂数据中学习,以推动超人智能的安全应用。

The Superalignment of Superhuman Intelligence with Large Language Models

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-12-15T00:00:00Z

本文提出了一种名为偏好排名优化(PRO)的新策略,通过直接应用人类偏好排名来优化语言模型的响应。研究表明,PRO在对齐性能上优于现有算法,并强调在强化学习中利用人类反馈的重要性,以确保AI输出与人类偏好一致,提升用户体验。

COMAL:一种收敛元算法,用于将大语言模型与一般偏好对齐

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-10-30T00:00:00Z

提出Preference Ranking Optimization(PRO)策略,将人类偏好排名应用于语言模型生成的响应的概率排名,实现语言模型与人类价值观的对齐。PRO优于现有对齐算法,与ChatGPT和人类响应相当。长、多样化、高质量的偏好排名序列稳定提高语言模型与人对其的对齐性能。

无参考单块偏好优化与胜负比率

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-03-12T00:00:00Z

提出了Preference Ranking Optimization(PRO)策略,将人类偏好排名应用于语言模型生成的响应的概率排名,实现了LLMs与人类价值观的对齐。PRO优于现有对齐算法,与ChatGPT和人类响应相当。长、多样化、高质量的偏好排名序列稳定提高LLMs与人对其的对齐性能。

可控偏好优化:朝着可控的多目标对齐

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-02-29T00:00:00Z

MMDesign是一种新型的蛋白质设计范式,利用自编码器语言模型将蛋白质序列的先验语义知识纳入其中,并引入了跨层跨模态对齐算法来保持结构和语境模态的一致性。实验结果表明,MMDesign在公共测试集上优于其他基线方法,并提出了定量分析技术来评估生成的蛋白质序列和数据分布的生物可能性,展示其可解释性并揭示蛋白质设计的规律。

MMDesign:多模态迁移学习用于生成蛋白质设计

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2023-12-11T00:00:00Z

该研究提出了一种名为PRO的新型策略,通过将人类偏好排名直接应用于语言模型生成的响应的概率排名,实现了语言模型与人类价值观的对齐。研究结果表明,PRO优于现有的对齐算法,并通过实验达到了与ChatGPT和人类响应相当的结果。

ReMax: 一个用于对齐大型语言模型的简单、有效且高效的方法

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2023-10-16T00:00:00Z

该研究提出了一种名为PRO的新型策略,通过将人类偏好排名直接应用于语言模型生成的响应的概率排名,实现了语言模型与人类价值观的对齐。研究结果表明,PRO优于现有的对齐算法,并通过实验达到了与ChatGPT和人类响应相当的结果。

超越一种偏好适用于所有情况:多目标直接偏好优化

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2023-10-05T00:00:00Z

本文提出了一种新的基于文本的发言人分离评估方法,通过对参考和假设转录中的标记进行对齐,进行话语和单词级别的评估。作者的工作打包为两个工具,align4d 提供用于对齐算法的 API,TranscribeView 用于可视化和评估发言人分离错误。

音频对齐:使用高效多序列对齐评估和可视化基于文本的日识别(扩展版)

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2023-09-14T00:00:00Z
AI安全需要社会科学家

我们认为,长期的AI安全研究需要社会科学家的参与,以确保AI对齐算法在实际人类互动中有效。对齐先进AI系统与人类价值观需解决与人类理性、情感和偏见相关的不确定性。希望促进机器学习与社会科学的合作,并计划在OpenAI全职招聘社会科学家。

AI安全需要社会科学家

OpenAI
OpenAI · 2019-02-19T08:00:00Z
  • <<
  • <
  • 1 (current)
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码