💡
原文中文,约1700字,阅读约需5分钟。
📝
内容提要
知名学者Andrej Karpathy认为,人工智能的对话能力被夸大,实际上是模仿人类标注数据的结果。他质疑RLHF的有效性,认为其只能达到专家水平,而非真正的超人。他提出基于规则的奖励(RBR)可能为大模型性能提升提供新思路。
🎯
关键要点
- Andrej Karpathy认为人工智能的对话能力被夸大,实际上是模仿人类标注数据的结果。
- Karpathy质疑RLHF的有效性,认为其只能达到专家水平,而非真正的超人。
- 他提出基于规则的奖励(RBR)可能为大模型性能提升提供新思路。
- Karpathy指出,RLHF将模型性能从人工生成提升到人工判别,但这并不意味着超越人类。
- 他批评RLHF的训练方法,认为其无法有效奖励并可能导致偏离正常轨道的优化。
- Karpathy对RLHF适用于LLM感到惊讶,认为其并不是解决问题的实际目标。
- 他提到大模型在简单任务上表现不佳,复杂任务上也常常给出错误答案。
- OpenAI公布的基于规则的奖励(RBR)方法可能为大模型的性能突破提供新的方向。
➡️