量子位 ·

强化学习之父：LLM主导只是暂时，扩展计算才是正解

💡 原文中文，约2100字，阅读约需5分钟。

📝

内容提要

强化学习之父Richard Sutton预测，当前大语言模型的主导地位是暂时的，未来AI将依赖通过Agent与世界互动获取“体验数据”。他指出，模仿人类思维只能带来短期提升，长期发展需依赖扩展计算和强化学习，以实现自主学习和创新。

🎯

关键要点

Richard Sutton预测大语言模型的主导地位是暂时的，未来AI将依赖通过Agent与世界互动获取体验数据。
模仿人类思维只能带来短期提升，长期发展需依赖扩展计算和强化学习。
AI需要新的数据来源，静态数据集不足以支持创新。
AI将通过自主体验和互动学习，形成一个越学越强的循环。
不同目标的Agent可以寻求去中心化合作，实现互利共赢。
Sutton认为集中控制AI的呼声源于对未知的恐惧，去中心化合作是AI潜力的关键。
人类发展AI的目标是设计出能自主设计的Agent，推动技术进步。

❓

延伸问答

Richard Sutton对大语言模型的看法是什么？

Sutton认为大语言模型的主导地位是暂时的，未来AI将依赖通过Agent与世界互动获取体验数据。

为什么模仿人类思维方式对AI的长期发展有阻碍？

模仿人类思维只能带来短期提升，长期看会限制AI的创新能力。

AI如何获取新的数据来源以支持创新？

AI将通过Agent与世界的第一人称交互获取体验数据，而不是依赖静态数据集。

Sutton提到的“体验时代”是什么意思？

“体验时代”指的是AI通过自主体验和互动学习，形成一个不断增强的学习循环。

去中心化合作在AI发展中有什么重要性？

去中心化合作可以让不同目标的Agent实现互利共赢，推动AI的潜力。

Sutton如何看待集中控制AI的呼声？

Sutton认为集中控制AI的呼声源于对未知的恐惧，应该接受个体目标的多样性。

🏷️

标签

llm 体验数据创新大语言模型强化学习自主学习

➡️

继续阅读

AI 语音聊天机器人背后是怎么实现的，是 ASR + LLM + TTS 串起来吗，延迟怎么压下去
AI语音聊天机器人的实现依赖多个模块的协同，关键在于整体架构、流式串联、并行与预测、传输与端侧优化。通过优化各环节，端到端延迟可降低至700~900毫秒，...
拒领上亿、封杀 AI：Zig 之父为什么 10 年不发 1.0？
Zig语言创始人Andrew Kelley拒绝AI生成代码，坚守独立与高质量。他认为Zig能超越C和Rust，提供更高效的底层控制。Zig的工具链简化了构...
AWS Introduces CDK Mixins for Composable Infrastructure Abstractions
AWS recently announced CDK Mixins, a new AWS CDK feature that lets developers...
明镜荡｜上海出发一小时的宝藏湖荡露营地
初夏，作者与妻子在澄湖露营，享受湖边的宁静与美景。途中购买新鲜蔬菜，简单烹饪午餐。自驾沿湖探索明镜荡和祝甸砖窑文化馆，最后游览锦溪古镇，感受水乡的古老魅力。
竞争愈发激烈？Codex宣布下次手动重置时用户可以自选重置时间避免额度浪费
Codex 宣布用户可以手动选择重置时间，以避免额度浪费，并提供一次性重置机会，30 天内有效。用户可根据使用情况规划重置，提升使用效率。部分用户在升级后...
A社重置Claude Code当周使用限额同时在7月13日前周限额增加50% 5小时限额不变
因美国政府的出口管制，A社暂时撤回Claude Fable/Mythos 5模型的访问权限，影响了开发者体验。作为补偿，A社将所有付费用户的当周限额重置至...