机器之心 ·

LLM超越人类时该如何对齐？谷歌用新RLHF框架解决了这个问题

💡 原文中文，约3700字，阅读约需9分钟。

📝

内容提要

谷歌DeepMind与芝加哥大学开发了开放式RLHF框架eva，以确保大型语言模型（LLM）在自我进化中保持对齐。该框架通过创建器和求解器的非对称自博弈，自动演进提示词分布，提升模型的泛化能力。实验结果显示，eva在对齐效果上显著优于传统方法，且无需依赖人工数据，展现出更高的效率和成本效益。

🎯

关键要点

谷歌DeepMind与芝加哥大学开发了开放式RLHF框架eva，以确保大型语言模型在自我进化中保持对齐。
高质量的人类数据对基于LLM的AI至关重要，但预计未来几年将耗尽。
需要为LLM构建自我提升的机制，以便持续自我生成和求解更复杂的问题。
传统的偏好优化算法使用固定的提示词训练分布，缺乏可扩展性，导致泛化和效率问题。
eva框架通过创建器和求解器的非对称自博弈，自动演进提示词分布，提升模型的泛化能力。
eva的核心方法是通过创建器调整提示词分布，模仿不对称自博弈的最小最大遗憾策略。
eva的目标是开发能泛化到新环境的智能体，而不仅仅是在固定数据集上优化。
eva的创建器通过估计、采样和演进步骤生成有用的提示词变体。
eva在实验中显示出显著的对齐效果，尤其在更难的基准测试中表现优异。
eva的模型表现能够比肩甚至超越使用人工提示词训练的模型，且成本更低，速度更快。
eva能够演化出新技能，显著提高模型在后续互动中的表现。

❓

延伸问答

eva框架的主要目标是什么？

eva框架的主要目标是确保大型语言模型在自我进化中保持对齐，并能够泛化到新环境。

eva框架如何提升模型的泛化能力？

eva通过创建器和求解器的非对称自博弈，自动演进提示词分布，从而提升模型的泛化能力。

传统的偏好优化算法存在哪些问题？

传统的偏好优化算法使用固定的提示词训练分布，缺乏可扩展性，导致泛化和效率问题。

eva框架在实验中表现如何？

eva在实验中显示出显著的对齐效果，尤其在更难的基准测试中表现优异，且无需依赖人工数据。

eva框架如何实现自我提升？

eva框架通过创建器生成有用的提示词变体，并通过不断演进来实现自我提升。

使用eva框架的模型与人工提示词训练的模型相比如何？

使用eva框架的模型表现能够比肩甚至超越使用人工提示词训练的模型，且成本更低，速度更快。

🏷️

继续阅读

谷歌800亿融资，巴菲特久违接盘，背后有什么鬼故事？
谷歌融资847.5亿美元并停止股票回购，以应对未来挑战并囤积现金。巴菲特的伯克希尔哈撒韦投资100亿美元，显示市场对AI的信心。科技巨头们纷纷转向AI基础...
谷歌Gemma 4 12B的性能几乎与26B基准相当——并可在您的笔记本电脑上运行
谷歌推出了Gemma 4 12B模型，旨在为标准笔记本电脑提供高性能的多模态智能。该模型内存占用比Gemma 4 26B小一半，但性能接近，支持本地运行，...
谷歌允许社交媒体明星自定义他们的搜索结果页面
谷歌允许美国的大型创作者和出版商申请专属搜索资料，展示他们的在线内容，如视频和文章。此功能仅限于拥有至少10万YouTube订阅者、10万Instagra...
在自主数据库时代，人类的需求为何不会消失
Percona联合创始人Vadim Tkachenko在会议上指出，未来数据库管理员将转变为数据架构师，日常维护将由自动化和人工智能处理，人类将专注于数据...
使用Scikit-LLM与开源语言模型
本文介绍如何使用Ollama本地托管的开源语言模型（如Llama 3、Mistral和Gemma）进行文本分类，避免支付API费用。内容包括Ollama的...
这次谷歌相册的更新拯救了你的数字相框
谷歌的Ambient API更新使Aura数字相框用户可以自动更新幻灯片库，用户可直接从谷歌相册添加照片或同步整个相册。现有用户需重新连接相册以保持同步，...