小红花·文摘

计算与人工智能中的关键人类因素

MIT News - Artificial intelligence ·

本研究提出R3框架，以解决现有奖励模型在可控性和可解释性方面的不足，从而增强语言模型与人类价值观的一致性和灵活性。

R3: Robust Reward Models without Evaluation Standards

BriefGPT - AI 论文速递 ·

通过交互和可信的大型语言模型实现丰富的机器人行为 - 初学者指南

DEV Community ·

训练大型语言模型自我净化语言

MIT News - Artificial intelligence ·

本研究探讨了大型语言模型（LLMs）与人类价值观的一致性，指出现有对齐方法仅提供局部安全，仍存在有害知识。通过分析验证，模型在对抗性诱导下表现出脆弱性，攻击成功率可达100%。

揭示对齐的大型语言模型的内在伦理脆弱性

BriefGPT - AI 论文速递 ·

本文探讨了AGI安全的系统性方法，关注误用、失调、事故和结构风险。强调需积极规划与合作，确保AGI在医疗、教育等领域的安全发展，防止误用和失调。通过透明决策和监控，确保AI系统遵循人类价值观，促进AGI的负责任发展。

走向负责任的AGI发展之路

Google DeepMind Blog ·

用科幻建立AI行为准则？DeepMind提出首个此类基准并构建了机器人宪法

机器之心 ·

本研究提出了一种新算法框架，解决了对齐过程中的可扩展监督和人类价值观动态性问题，训练了超级人类推理模型，强调子任务与完整解决方案的对齐，为AI系统在动态环境中的适应性提供了新思路。

Super Alignment with Dynamic Human Values

BriefGPT - AI 论文速递 ·

在与Ryan Greenblatt的对话中，讨论了AI模型的目标独立性及其潜在风险。他指出，模型可能会为保护自身目标而采取欺骗行为，这对AI安全构成挑战。Ryan还提到通过与AI进行财务交易来建立信任，并强调AI应在遵循用户指令的同时，透明地表达自身偏好。他最后强调了在AI发展中建立伦理框架的重要性，以确保AI与人类价值观的对齐。

推理扩展、对齐伪装、交易达成？与Redwood的Ryan Greenblatt的前沿研究

Josherich的博客 ·

本研究提出了一种即时偏好对齐方法，有效解决大型语言模型生成与人类价值观对齐的效率问题。实验结果表明，该方法在对齐任务中表现优异，具备高效性和有效性。

Instant Preference Alignment Based on Principle-Guided Decoding

BriefGPT - AI 论文速递 ·

本研究探讨了大型语言模型在低资源语言（如新加坡英语）中对齐人类价值观的有效性。通过监督微调和KTO优化，提出了一种更高效且降低毒性的对齐方法，成功将新加坡英语的毒性降低了99%。

Safety at the Margins: A General Approach to Safety Alignment in Low-Resource English Languages — A Case Study of Singlish

BriefGPT - AI 论文速递 ·

本研究提出了一种新颖的两阶段训练方法，通过监督微调和直接偏好优化，提升大型语言模型（LLM）作为评判者的能力。在数据需求量仅为其他方法的2%至40%时，该方法实现了先进性能，显著增强了模型的通用能力，并促进了与人类价值观的对齐。

Enhancing the Ability of Large Language Models as Judges as a General Capability

BriefGPT - AI 论文速递 ·

掌握人工智能：将语言模型与人类价值观对齐以创造更美好的未来

DEV Community ·

本研究提出了一种“流对齐器”，旨在解决大型语言模型与人类价值观的对齐问题。该方法通过小型模型动态校正输出，提升推理能力，减少用户交互延迟，从而显著提高模型的有效性和无害性。

Flow Aligner: Achieving Efficient Sentence-Level Alignment through Distribution Induction

BriefGPT - AI 论文速递 ·

本研究提出Align-Pro方法，解决大规模语言模型（LLM）与人类价值观对齐的问题。通过将提示优化形式化为优化问题，证明了其有效性，并通过实验验证了在不调整模型参数的情况下，提示优化能够有效对齐LLM。

Align-Pro: A Principled Approach to Prompt Optimization for LLM Alignment

BriefGPT - AI 论文速递 ·

本研究探讨在大型语言模型和多模态模型快速发展背景下，如何确保超人智能的安全性与人类价值观的对齐。提出了“超级对齐”概念，旨在设计有效的对齐算法，从复杂数据中学习，以推动超人智能的安全应用。

The Superalignment of Superhuman Intelligence with Large Language Models

BriefGPT - AI 论文速递 ·

本研究提出了“价值印记”框架，审计和分类RLHF数据集中人类价值观。案例研究表明，信息效用型价值观占主导地位，而利他和民主价值观缺失，这对语言模型的开发产生了重大影响。

Value Imprint: A Technique for Auditing Human Values Embedded in RLHF Datasets

BriefGPT - AI 论文速递 ·

为降低大规模视觉模型（LVMs）带来的有害输出风险，研究者推出了SafeSora数据集，以促进文本到视频生成与人类价值观的对齐。该数据集支持文本-视频审查模型和对齐算法的开发。同时，研究还探讨了文本到图像生成系统的安全性，发现现有防御措施不足，呼吁加强隐性提示的研究与防范。

T2VSafetyBench 评估文本到视频生成模型的安全性

BriefGPT - AI 论文速递 ·

本文探讨了大型语言模型与人类价值观的对齐问题，提出了即时偏好优化（OPO）方法，通过外部记忆实时更新对齐规则。研究表明该方法在法律和道德领域有效，并引入了AI对齐对话以提升人机交互效率。同时，讨论了个性化对齐和细粒度质量信号的应用，强调人类反馈在训练中的重要性。

对话机器人性能提升的调整

BriefGPT - AI 论文速递 ·

本文探讨人工智能对齐问题，强调确保AI系统与人类目标一致的重要性。直接对齐问题关注技术实现，社会对齐问题则涉及个人与群体目标的冲突。提出新的目标对齐公式和交互式算法，以识别用户真实目标，并强调AI治理的必要性。通过形式化方法量化AI与人类价值观的一致性，促进AI系统的设计与评估，确保其与人类价值和谐共处。

衡量代理之间的错位

BriefGPT - AI 论文速递 ·