机器之心 ·

Andrej Karpathy：神奇大模型不存在的，只是对人类标注的拙劣模仿

💡 原文中文，约1700字，阅读约需5分钟。

📝

内容提要

知名学者Andrej Karpathy认为，人工智能的对话能力被夸大，实际上是模仿人类标注数据的结果。他质疑RLHF的有效性，认为其只能达到专家水平，而非真正的超人。他提出基于规则的奖励（RBR）可能为大模型性能提升提供新思路。

🎯

关键要点

Andrej Karpathy认为人工智能的对话能力被夸大，实际上是模仿人类标注数据的结果。
Karpathy质疑RLHF的有效性，认为其只能达到专家水平，而非真正的超人。
他提出基于规则的奖励（RBR）可能为大模型性能提升提供新思路。
Karpathy指出，RLHF将模型性能从人工生成提升到人工判别，但这并不意味着超越人类。
他批评RLHF的训练方法，认为其无法有效奖励并可能导致偏离正常轨道的优化。
Karpathy对RLHF适用于LLM感到惊讶，认为其并不是解决问题的实际目标。
他提到大模型在简单任务上表现不佳，复杂任务上也常常给出错误答案。
OpenAI公布的基于规则的奖励（RBR）方法可能为大模型的性能突破提供新的方向。

❓

延伸问答

Andrej Karpathy对人工智能的对话能力有什么看法？

Karpathy认为人工智能的对话能力被夸大，实际上是模仿人类标注数据的结果。

Karpathy对RLHF的有效性有什么质疑？

他质疑RLHF的有效性，认为其只能达到专家水平，而非真正的超人。

什么是基于规则的奖励（RBR）？

RBR是一种新方法，可以帮助AI模型遵守安全政策，并适应各种任务，定义所需行为的明确规则。

Karpathy如何看待RLHF在大模型中的应用？

他对RLHF适用于大模型感到惊讶，认为它并不是解决问题的实际目标。

Karpathy对大模型在复杂任务上的表现有什么看法？

他指出大模型在简单任务上表现不佳，复杂任务上也常常给出错误答案。

Karpathy对RLHF的训练方法有何批评？

他批评RLHF的训练方法，认为其无法有效奖励并可能导致偏离正常轨道的优化。

🏷️

继续阅读

[开源] 阿里巴巴发布AI驱动的代码审查工具Open Code Review 帮助开发者审查代码
阿里巴巴开源了基于人工智能的代码审查工具Open Code Review（OCR），旨在解决传统审查中的覆盖不全、位置漂移和不稳定等问题。开发者可通过配置...
eBay拒绝游戏驿站560亿美元收购提案；OpenAI收购Tomoro并成立新实体；腾讯音乐完成收购喜马拉雅
OpenAI收购咨询公司Tomoro，成立新合资企业以推动人工智能应用。优步提高对Delivery Hero的收购报价。阳狮集团以22亿美元收购LiveR...
每家公司的首个人工智能战略都应该是技能库
企业在实施人工智能时，首要任务是建立“技能图书馆”，记录优秀员工的工作流程和经验，将其转化为可重复使用的技能，以提升AI的实用性和效率，帮助公司更好地利用人工智能。
英国通信管理局（Ofcom）制定人工智能战略，相关研究正在进行中
英国通信管理局（Ofcom）发布了更新的人工智能战略，旨在支持通信行业采用人工智能并应对消费者风险。该战略强调技术中立和结果导向，推动创新并确保安全，包括...
2026 06 05 HackerNews
特德·姜批评将人工智能拟人化，指出大型语言模型（LLM）并不具备意识或情感。加州大学伯克利分校因学生过度依赖AI，计算机科学课程的不及格率显著上升。美国政...
Anthropic：AI递归式自我改进RSI正在加速！
Anthropic报告指出，人工智能（AI）正在迅速自我改进，能够独立编写代码和修复bug，效率显著提升。预计到2026年，AI的代码产出将相当于八名工程...