机器之心 ·

老婆饼里没有老婆，RLHF里也没有真正的RL

💡 原文中文，约6700字，阅读约需16分钟。

📝

内容提要

RLHF（基于人类反馈的强化学习）并未为大型语言模型（LLM）提供真正的强化学习，因为缺乏持续的环境交互和长期目标追求。RLHF主要通过单步优化调整模型输出，缺乏实时反馈和动态策略更新。尽管RLHF能改善模型对齐性，但LLM仍然是基于上下文预测的统计系统，缺乏内在目标和意图。

🎯

❓

RLHF缺乏持续的环境交互和长期目标追求，主要通过单步优化调整模型输出，而经典强化学习强调长期累积奖励的最大化。

因为RLHF主要依赖于静态人类偏好数据，缺乏实时反馈和动态策略更新，导致模型没有内在目标。

使用提示工程或多个LLM的协调工作流，如Auto-GPT或BabyAGI，试图模拟一个智能体的行为。

这导致对齐简化，难以委派开放式任务，并可能缺乏创新，因为模型没有持续的内驱力。

因为经典强化学习需要昂贵的计算资源和稳定的交互环境，而现有方法如RLHF已经能提供足够的性能。

RLHF可以改善模型的对齐性和输出质量，但仍然无法赋予模型真正的目标或意图。

🏷️

深入探讨语言模型的校准：Platt缩放、等距回归与温度缩放
大型语言模型（LLMs）普遍存在误校准问题，导致信心分数与实际正确率不符。传统的后处理校准方法包括温度缩放、Platt缩放和等距回归，但由于LLMs的复杂...
2026 06 05 HackerNews
特德·姜批评将人工智能拟人化，指出大型语言模型（LLM）并不具备意识或情感。加州大学伯克利分校因学生过度依赖AI，计算机科学课程的不及格率显著上升。美国政...
MiniCPM5-1B采用RL+OPD训练，多项复杂任务达SOTA；面向复杂医疗业务自动化：医疗智能体评测数据集 CHI-Bench
TACK 是 AI Laboratory for Molecular Engineering 于 2026 年发布的一个标准化知识库数据集与基准测试集，旨...
300 款车、450 亿美元订单：高通汽车芯片的中国棋局
汽车迎来智能体时代。#欢迎关注爱范儿官方微信公众号：爱范儿（微信号：ifanr），更多精彩内容第一时间为您奉上。
企业文档安全最佳实践（一）：告别混乱，从“分类分级与密级标识”开始
管理数据的第一步，是理解数据；保护数据的第一步，是定义数据。在数字化办公时代，文档已成为企业最核心的资产之一Read More
明天高考了