宝玉的分享 ·

在 o1 发布后，回顾当年 Jim Fan 对 Q*的预测，他对了吗？

💡 原文中文，约1500字，阅读约需4分钟。

📝

内容提要

吉姆·范对Q*的预测是准确的，他将其与AlphaGo进行比较，并建议通过自我对弈来改进。AlphaGo的架构包括策略神经网络、价值神经网络、蒙特卡洛树搜索和胜负判断。吉姆建议使用数学问题来训练具有策略神经网络、价值神经网络、搜索和胜负判断的大型语言模型。对于o1来说，推广到其他领域仍然是一个挑战。o1在数学和编程方面表现良好，但在其他领域需要改进以实现通用人工智能。在写作方面，o1不如GPT-4o。

🎯

关键要点

吉姆·范对Q*的预测与AlphaGo相似，认为Q*通过自我对弈不断进步。
AlphaGo的架构包括策略神经网络、价值神经网络、蒙特卡洛树搜索和输赢判定。
AlphaGo的训练过程无需人类干预，依赖清晰的输赢判定规则。
大语言模型面临的挑战在于缺乏类似蒙特卡洛树搜索的慢思考机制，难以评估生成结果的好坏。
吉姆建议使用数学问题来训练大语言模型，并提出Q*的四个组件的猜想。
策略神经网络由GPT生成解决数学问题的思维过程，价值神经网络评估推理步骤的正确性概率。
搜索组件对应推理，通过思维链找出最优解，可能结合思维树和思维图。
输赢判定可以基于数学问题的答案正确性、推导过程的正确性或程序运行结果。
o1在数学和编程领域表现突出，但泛化能力是否适用于其他领域仍是关键问题。
o1在文字解密领域表现强劲，但在写作方面不如GPT-4o。

❓

延伸问答

吉姆·范对Q*的预测是什么？

吉姆·范预测Q*将通过自我对弈不断进步，类似于AlphaGo的学习方式。

AlphaGo的架构包含哪些核心组件？

AlphaGo的架构包括策略神经网络、价值神经网络、蒙特卡洛树搜索和输赢判定。

o1在数学和编程领域的表现如何？

o1在数学和编程领域表现突出，利用数学问题和代码问题进行训练。

o1在写作方面的表现如何？

o1在写作方面的表现不如GPT-4o。

吉姆·范对大语言模型的训练有什么建议？

吉姆建议使用数学问题来训练大语言模型，并提出Q*的四个组件的猜想。

o1的泛化能力是否适用于其他领域？

o1的泛化能力是否适用于其他领域仍是一个关键问题。

🏷️

继续阅读

谷歌的AI搜索如此失灵，以至于它可以“忽视”你正在寻找的内容
谷歌的AI搜索在处理“disregard”或“ignore”等词时出现问题，AI概述部分未能提供正常结果，而是给出了类似传统聊天机器人的回应。谷歌尚未对此作出回应。
在Databricks上通过提示缓存加速开源模型的LLM推理
在旧金山举行的全球最大数据、应用和人工智能活动中，研究人员探讨了提示缓存技术在大型语言模型（LLM）推理中的应用。提示缓存可以消除重复请求的冗余，提高模型...
适用于任何代理的可观察性：在Databricks上使用OpenTelemetry和Unity Catalog进行生产就绪的追踪
Databricks支持将OpenTelemetry追踪直接写入Unity Catalog，简化数据存储和分析。通过实时摄取追踪数据，团队能够更好地理解A...
基于请求的自动扩展功能现已在应用平台上全面上线
DigitalOcean推出基于请求的自动扩展功能，允许应用根据实时HTTP流量自动调整资源。此功能适用于共享和专用CPU实例，用户可根据请求数和响应时间...
Twelve South的AirFly Pro 2在夏季旅行前达到了最佳价格之一
Twelve South的AirFly Pro 2蓝牙适配器现以49.99美元的优惠价格出售，适合夏季旅行。它可以将无线耳机连接到机上娱乐系统，支持同时连...
回顾2026年谷歌I/O大会的Dialogues舞台
本周的I/O大会上，Dialogues舞台汇聚了谷歌的领导者、科学家和创意先锋，讨论了技术突破对社会和未来的影响。