Andrej Karpathy:神奇大模型不存在的,只是对人类标注的拙劣模仿

Andrej Karpathy:神奇大模型不存在的,只是对人类标注的拙劣模仿

💡 原文中文,约1700字,阅读约需5分钟。
📝

内容提要

知名学者Andrej Karpathy认为,人工智能的对话能力被夸大,实际上是模仿人类标注数据的结果。他质疑RLHF的有效性,认为其只能达到专家水平,而非真正的超人。他提出基于规则的奖励(RBR)可能为大模型性能提升提供新思路。

🎯

关键要点

  • Andrej Karpathy认为人工智能的对话能力被夸大,实际上是模仿人类标注数据的结果。
  • Karpathy质疑RLHF的有效性,认为其只能达到专家水平,而非真正的超人。
  • 他提出基于规则的奖励(RBR)可能为大模型性能提升提供新思路。
  • Karpathy指出,RLHF将模型性能从人工生成提升到人工判别,但这并不意味着超越人类。
  • 他批评RLHF的训练方法,认为其无法有效奖励并可能导致偏离正常轨道的优化。
  • Karpathy对RLHF适用于LLM感到惊讶,认为其并不是解决问题的实际目标。
  • 他提到大模型在简单任务上表现不佳,复杂任务上也常常给出错误答案。
  • OpenAI公布的基于规则的奖励(RBR)方法可能为大模型的性能突破提供新的方向。
➡️

继续阅读