小红花·文摘

本研究提出了一种新的无调优自我对齐方法——动态奖励与提示优化，旨在降低传统大语言模型对齐过程的成本。该方法通过搜索优化框架，使模型自我改进，提升对齐性能，且自动优化的提示超越人类专家的编辑，展示了大语言模型在推理中的自我对齐潜力。

Dynamic Rewarding and Prompt Optimization Enable Tuning-Free Self-Alignment of Language Models

BriefGPT - AI 论文速递 ·

本文探讨了人工智能助手的自我对齐方法，提出了结合少量人工监督和原理驱动推理的SELF-ALIGN方法。研究表明，内在人类价值是提升大型语言模型对齐目标的关键，强调了实现超对齐的挑战和未来研究方向。通过弱监督模型训练强模型，发现弱模型引导强模型的性能优于单独使用弱模型，并提出了改进对齐的潜在策略。

解释、辩论、对齐：一种弱到强的语言模型泛化框架

BriefGPT - AI 论文速递 ·

本文探讨了如何利用大型语言模型（LLM）优化强化学习中的奖励函数设计，提出了自我对齐、视觉语言模型（VLMs）和自动生成奖励函数等方法，以提高训练效果和效率。这些方法在多项任务中优于传统监督学习，展示了LLM在智能体与用户目标对齐中的潜力。

OCALM：基于语言模型的对象评估

BriefGPT - AI 论文速递 ·

研究提出了SELF-ALIGN方法，通过少量人工监督和知识蒸馏，实现大型语言模型的自我对齐，减少对人工反馈的依赖。该方法在多个基准测试中表现优异，显著提高了模型的安全性和性能，尤其在无害性和有帮助性任务上。研究展示了无需人工反馈的对齐策略，提升了模型的可控性和效率。

本文介绍了一种名为指令反向翻译的方法，用于构建高质量的指令跟随语言模型。该方法通过自动标记人工编写的文本与相应的指令，并使用少量种子数据和给定的网络语料库对语言模型进行微调。通过为网络文档生成指令提示来构建训练样本，并从中选择高质量的例子进行自我策划。通过对 LLaMa 进行两次迭代的微调，得到一个在 Alpaca 排行榜上性能优于其他基于 LLaMa 的模型的模型，且不依赖蒸馏数据，展示了高度有效的自我对齐。

指导反向翻译的自对齐

BriefGPT - AI 论文速递 ·

Dynamic Rewarding and Prompt Optimization Enable Tuning-Free Self-Alignment of Language Models

解释、辩论、对齐：一种弱到强的语言模型泛化框架

OCALM：基于语言模型的对象评估

LLM 自学与交叉模型蒸馏：拒绝模式对齐的有效方法

指导反向翻译的自对齐