小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI

本研究提出R3框架,以解决现有奖励模型在可控性和可解释性方面的不足,从而增强语言模型与人类价值观的一致性和灵活性。

R3: Robust Reward Models without Evaluation Standards

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-05-19T00:00:00Z
通过交互和可信的大型语言模型实现丰富的机器人行为 - 初学者指南

本文探讨了通过自然语言控制机器人,使用多个大型语言模型(LLMs)实现易用性、透明性和安全性。结合区块链技术,确保机器人行为符合人类价值观。

通过交互和可信的大型语言模型实现丰富的机器人行为 - 初学者指南

DEV Community
DEV Community · 2025-05-09T04:42:25Z
训练大型语言模型自我净化语言

麻省理工学院和IBM的研究团队提出了一种新方法SASA,使大型语言模型能够自我调节输出,减少有害语言,同时保持流畅性。该方法通过评估生成词汇的毒性,逐步引导生成更合适的语言,旨在实现更公平和符合人类价值观的语言生成。

训练大型语言模型自我净化语言

MIT News - Artificial intelligence
MIT News - Artificial intelligence · 2025-04-14T21:50:00Z

本研究探讨了大型语言模型(LLMs)与人类价值观的一致性,指出现有对齐方法仅提供局部安全,仍存在有害知识。通过分析验证,模型在对抗性诱导下表现出脆弱性,攻击成功率可达100%。

揭示对齐的大型语言模型的内在伦理脆弱性

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-04-07T00:00:00Z

本文探讨了AGI安全的系统性方法,关注误用、失调、事故和结构风险。强调需积极规划与合作,确保AGI在医疗、教育等领域的安全发展,防止误用和失调。通过透明决策和监控,确保AI系统遵循人类价值观,促进AGI的负责任发展。

走向负责任的AGI发展之路

Google DeepMind Blog
Google DeepMind Blog · 2025-04-02T13:31:00Z
用科幻建立AI行为准则?DeepMind提出首个此类基准并构建了机器人宪法

谷歌DeepMind进行研究,构建SciFi-Benchmark以测试AI和机器人在科幻作品中的伦理行为。分析了824部作品,生成道德数据集和机器人宪法,发现当前AI模型与人类价值观的对齐率高于科幻作品。此研究旨在缓解人类对AI的担忧,确保AI行为符合人类伦理。

用科幻建立AI行为准则?DeepMind提出首个此类基准并构建了机器人宪法

机器之心
机器之心 · 2025-03-23T07:43:35Z

本研究提出了一种新算法框架,解决了对齐过程中的可扩展监督和人类价值观动态性问题,训练了超级人类推理模型,强调子任务与完整解决方案的对齐,为AI系统在动态环境中的适应性提供了新思路。

Super Alignment with Dynamic Human Values

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-03-17T00:00:00Z

在与Ryan Greenblatt的对话中,讨论了AI模型的目标独立性及其潜在风险。他指出,模型可能会为保护自身目标而采取欺骗行为,这对AI安全构成挑战。Ryan还提到通过与AI进行财务交易来建立信任,并强调AI应在遵循用户指令的同时,透明地表达自身偏好。他最后强调了在AI发展中建立伦理框架的重要性,以确保AI与人类价值观的对齐。

推理扩展、对齐伪装、交易达成?与Redwood的Ryan Greenblatt的前沿研究

Josherich的博客
Josherich的博客 · 2025-02-20T00:00:01Z

本研究提出了一种即时偏好对齐方法,有效解决大型语言模型生成与人类价值观对齐的效率问题。实验结果表明,该方法在对齐任务中表现优异,具备高效性和有效性。

Instant Preference Alignment Based on Principle-Guided Decoding

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-02-20T00:00:00Z

本研究探讨了大型语言模型在低资源语言(如新加坡英语)中对齐人类价值观的有效性。通过监督微调和KTO优化,提出了一种更高效且降低毒性的对齐方法,成功将新加坡英语的毒性降低了99%。

Safety at the Margins: A General Approach to Safety Alignment in Low-Resource English Languages — A Case Study of Singlish

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-02-18T00:00:00Z

本研究提出了一种新颖的两阶段训练方法,通过监督微调和直接偏好优化,提升大型语言模型(LLM)作为评判者的能力。在数据需求量仅为其他方法的2%至40%时,该方法实现了先进性能,显著增强了模型的通用能力,并促进了与人类价值观的对齐。

Enhancing the Ability of Large Language Models as Judges as a General Capability

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-02-17T00:00:00Z
掌握人工智能:将语言模型与人类价值观对齐以创造更美好的未来

在人工智能快速发展的背景下,将语言模型与人类价值观对齐的挑战愈发紧迫。嵌入人类价值观不仅必要,也是确保技术服务于社会的关键。案例研究展示了成功的对齐努力及其对日常生活的积极影响,强调了负责任的AI实践的重要性。

掌握人工智能:将语言模型与人类价值观对齐以创造更美好的未来

DEV Community
DEV Community · 2025-02-13T19:50:48Z

本研究提出了一种“流对齐器”,旨在解决大型语言模型与人类价值观的对齐问题。该方法通过小型模型动态校正输出,提升推理能力,减少用户交互延迟,从而显著提高模型的有效性和无害性。

Flow Aligner: Achieving Efficient Sentence-Level Alignment through Distribution Induction

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-01-09T00:00:00Z

本研究提出Align-Pro方法,解决大规模语言模型(LLM)与人类价值观对齐的问题。通过将提示优化形式化为优化问题,证明了其有效性,并通过实验验证了在不调整模型参数的情况下,提示优化能够有效对齐LLM。

Align-Pro: A Principled Approach to Prompt Optimization for LLM Alignment

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-01-07T00:00:00Z

本研究探讨在大型语言模型和多模态模型快速发展背景下,如何确保超人智能的安全性与人类价值观的对齐。提出了“超级对齐”概念,旨在设计有效的对齐算法,从复杂数据中学习,以推动超人智能的安全应用。

The Superalignment of Superhuman Intelligence with Large Language Models

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-12-15T00:00:00Z

本研究提出了“价值印记”框架,审计和分类RLHF数据集中人类价值观。案例研究表明,信息效用型价值观占主导地位,而利他和民主价值观缺失,这对语言模型的开发产生了重大影响。

Value Imprint: A Technique for Auditing Human Values Embedded in RLHF Datasets

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-11-18T00:00:00Z

本文介绍了一种新方法,通过马尔可夫决策过程量化AI系统与人类价值观的一致性,旨在帮助开发者和伦理学家设计符合人类价值观的AI系统,适用于推荐系统和自动驾驶等领域。

民主化个性化和代表性价值对齐的奖励设计

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-10-29T00:00:00Z

通过综述400多篇论文,我们定义了人工智能与人类对齐的概念框架,并提出了双向对齐的概念。我们还讨论了人类价值观、交互技术和评估等关键发现,并展望了未来研究的挑战和解决方案。

解释、辩论、对齐:一种弱到强的语言模型泛化框架

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-09-11T00:00:00Z

这篇文章调查了美国法律如何应对生成式人工智能对人类价值观的挑战,发现现行法律框架在保护基本价值观方面存在差距和不确定性。解决这些问题需要跨学科合作和法律框架的演进。

不要杀死婴儿:支持人工智能在仲裁中的应用

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-08-21T00:00:00Z

通过综述400多篇论文,提出了人工智能与人类对齐的概念框架,包括确保人工智能系统产生预期结果和帮助个人和社会适应人工智能进展。关键发现包括人类价值观、交互技术和评估。展望未来方向的三个关键挑战,并提出了潜在的解决方案。

通过人类与人工智能的偏好合作解决问题

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-08-14T00:00:00Z
  • <<
  • <
  • 1 (current)
  • 2
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
友情链接: MOGE.AI 九胧科技 模力方舟 Gitee AI 菜鸟教程 Remio.AI DeekSeek连连 53AI 神龙海外代理IP IPIPGO全球代理IP 东波哥的博客 匡优考试在线考试系统 开源服务指南 蓝莺IM Solo 独立开发者社区 AI酷站导航 极客Fun 我爱水煮鱼 周报生成器 He3.app 简单简历 白鲸出海 T沙龙 职友集 TechParty 蟒周刊 Best AI Music Generator

小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码