机器之心 ·

Karpathy后悔了：2015年就看到了语言模型的潜力，却搞了多年强化学习

💡 原文中文，约3400字，阅读约需8分钟。

📝

内容提要

Andrej Karpathy 感叹未能早期引领大模型时代，认为强化学习的研究误导了他。他早在2015年就看好循环神经网络（RNN）的潜力，并探索其在文本生成中的应用。尽管强化学习曾取得成功，但最终被大语言模型（LLM）取代。

🎯

关键要点

Andrej Karpathy 感叹未能早期引领大模型时代，认为强化学习的研究误导了他。
Karpathy 早在2015年就看好循环神经网络（RNN）的潜力，并探索其在文本生成中的应用。
强化学习曾取得成功，但最终被大语言模型（LLM）取代。
Karpathy 提到 Yann LeCun 对强化学习的看法，认为表征学习和监督学习更为重要。
Karpathy 在2015年发表的文章探讨了 RNN 的潜力与实际应用，展示了其在文本生成中的能力。
他通过实验表明 RNN 能够生成类似莎士比亚作品的文本，展示了其强大和稳健性。
Karpathy 详细介绍了 RNN 的工作原理和训练过程，强调了其在字符级语言建模上的潜力。
2017 年谷歌发布了 Transformer 论文，提出了自注意力机制，推动了大模型的发展。
Karpathy 的经历提醒我们反思过去的研究方向和选择。

❓

延伸问答

Karpathy为什么后悔没有早期引领大模型时代？

Karpathy认为自己早在2015年就看到了循环神经网络的潜力，但却误入强化学习的研究，未能把握大模型的机会。

Karpathy在2015年对循环神经网络的看法是什么？

他认为循环神经网络（RNN）具有强大的潜力，并探索了其在文本生成中的应用。

Karpathy提到的Yann LeCun对强化学习的看法是什么？

Yann LeCun认为强化学习只是表征学习和监督学习的附加部分，强调前者更为重要。

Karpathy如何展示RNN在文本生成中的能力？

他通过实验表明RNN能够生成类似莎士比亚作品的文本，展示了其强大和稳健性。

Karpathy对RNN的训练过程是如何描述的？

他介绍了RNN通过逐字符预测下一个字符的概率分布，并通过反向传播算法调整权重以提高预测准确性。

Karpathy的经历对AI研究有什么启示？

他的经历提醒我们反思过去的研究方向和选择，避免在研究中走弯路。

🏷️

继续阅读

LWD——结合“分布式隐式价值学习与基于QAM的策略提取”的RL策略框架，先离线RL预训练，后在线RL微调
本文讨论了在真实世界中部署通用机器人策略的挑战，提出了一种名为“部署中学习”（LWD）的框架，通过车队规模的离线到在线强化学习（RL）实现策略的持续改进。...
用本地大模型驱动中文输入法，我做了一个实验性的项目 - 曦远Code
从一个问题开始你有没有用输入法时遇到这样的情况：打了一段话，下一个词的候选列表里，排第一的偏偏不是你想要的那个，但你知道那个词一定在后面几位，因为你刚才...
保护每一次 AI 调用的隐私安全 — 面向企业和个人的大模型安全接入网关
智链 AI 网关在统一代理转发大模型 API 的基础上，内置**数据脱敏、隐私保护、全链路审计**三大安全能力，确保敏感信息不泄露、每次调用可追溯。支持 ...
石榴中尿石素A预防心脏病：抗动脉硬化，斑块变小更稳定！
尿石素A是由肠道细菌利用石榴中的营养物质产生的化合物，能够通过减少斑块积聚、减轻炎症和提高斑块稳定性来保护动脉。研究表明，尿石素A通过降低氧化应激和炎症信...
Beacon Biosignals正在绘制睡眠中的大脑图谱
Beacon Biosignals公司由Jake Donoghue和Jarrett Revels创立，专注于基于睡眠数据的脑部疾病诊断和治疗。该公司利用轻...
通过语言提升理解力
麻省理工学院的学生Olivia Honeycutt研究语言对人类思维和社会互动的影响。她的研究结合计算机科学、语言学和神经科学，关注语言学习、教育政策和情...