小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI
在 o1 发布后,回顾当年 Jim Fan 对 Q*的预测,他对了吗?

吉姆·范对Q*的预测是准确的,他将其与AlphaGo进行比较,并建议通过自我对弈来改进。AlphaGo的架构包括策略神经网络、价值神经网络、蒙特卡洛树搜索和胜负判断。吉姆建议使用数学问题来训练具有策略神经网络、价值神经网络、搜索和胜负判断的大型语言模型。对于o1来说,推广到其他领域仍然是一个挑战。o1在数学和编程方面表现良好,但在其他领域需要改进以实现通用人工智能。在写作方面,o1不如GPT-4o。

在 o1 发布后,回顾当年 Jim Fan 对 Q*的预测,他对了吗?

宝玉的分享
宝玉的分享 · 2024-09-15T12:00:00Z

去年 Jim Fan 曾对传闻中的 Q* 有了一些有趣的猜测,让我们回头看看是不是对的。

在 o1 发布后,回顾当年 Jim Fan 对 Q*的预测,他对了吗?

宝玉的分享
宝玉的分享 · 2024-09-15T12:00:00Z

去年 Jim Fan 曾对传闻中的 Q* 有了一些有趣的猜测,让我们回头看看是不是对的。

在 o1 发布后,回顾当年 Jim Fan 对 Q*的预测,他对了吗?

宝玉的分享
宝玉的分享 · 2024-09-15T12:00:00Z
在 o1 发布后,回顾当年 Jim Fan 对 Q*的预测,他对了吗?

Jim Fan 预测 Q* 通过自我对弈不断进步,架构包括策略神经网络、价值神经网络、搜索和输赢判定。他提出利用数学问题训练大语言模型,以探索推理和生成能力。o1 在数学和编程领域表现突出,但其能力是否能泛化到其他领域仍需验证。

在 o1 发布后,回顾当年 Jim Fan 对 Q*的预测,他对了吗?

宝玉的分享
宝玉的分享 · 2024-09-15T12:00:00Z

本研究提出了一种新算法APA,优化了平方误差损失函数,显著优于PPO,解决了模式崩溃和样本效率低的问题。通过离线强化学习对齐语言模型并结合人类反馈,提升了模型训练的稳定性和性能。此外,研究还探讨了新算法XPO,增强了在线探索的样本效率。

逆Q*: 无需偏好数据的大语言模型对齐的标记级强化学习

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-08-27T00:00:00Z

本文探讨了大型语言模型(LLMs)在规划和推理任务中的应用及局限性,提出了LLM模块化框架,并结合外部验证器以增强推理能力。研究发现,LLMs在自主规划中表现有限,但在启发式模式下能改善其他智能计划器的效果。此外,介绍了新型推理框架RAP,展示了其在效率和准确性上的优势。

Q*: 改进 LLMs 的多步推理与计划

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-06-20T00:00:00Z

这篇综述论文调查了生成人工智能领域的发展现状,关注专家混合模型、多模态学习和人工通用智能的影响。它评估了技术的挑战和应用,并强调了在医疗、金融和教育等领域的潜力。它还讨论了人工智能的道德和以人为本的方法,并提出了未来研究策略。

从 Google Gemini 到 OpenAI Q*(Q-Star): 改变生成性人工智能(AI)研究领域的调查

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2023-12-18T00:00:00Z
关于OpenAI Q* 项目的谣言背后的真实的研究

OpenAI开发了名为Q*的人工智能模型,能够解决新的数学问题。该模型使用分步推理技术,通过逐步思考来得出正确答案。然而,要实现更广泛的应用,仍需克服自我对弈和学习能力等挑战。

关于OpenAI Q* 项目的谣言背后的真实的研究

极道
极道 · 2023-12-09T00:01:00Z

OpenAI 还没具体说明 Q* 是什么,但已经透露了许多线索。

如何理解关于 OpenAI Q* 的流言 [译]

宝玉的分享
宝玉的分享 · 2023-12-08T00:00:00Z
Sam Altman 最新专访:曝光回归内幕,首度回应 Q* 模型

OpenAI宣布首席执行官Sam Altman回归,并加入微软作为非投票观察员。Altman拒绝回答被解雇的问题,表示回来的动力是对公司使命的热爱。他强调员工对公司的影响很大,公司对安全工作的方法不会改变。关于Q*模型突破的报道,Altman表示进展将继续迅速,但安全和有益性仍然是重要关注点。Altman学到了公司可以在没有他的情况下正常运转。

Sam Altman 最新专访:曝光回归内幕,首度回应 Q* 模型

爱范儿
爱范儿 · 2023-11-30T07:45:57Z

本文介绍了两种使用模型无关学习进行图像生成的方法,通过将语义先验与生成能力对齐。其中一种方法是通过保持先前的奖励函数进行视觉模仿,另一种方法是噪声扩散梯度优化方法。这些方法在不同领域生成了高质量图像。

从扩散反馈中强化学习:图像搜索的 Q*

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2023-11-27T00:00:00Z

OpenAI宫斗可能要归功于Q*(Q-learning)的重大突破,它架起了Q-learning和预设启发式之间的桥梁,让机器能够预见下一步的最佳方案。Q*使OpenAI的语言模型能够直接处理数学和逻辑问题,不再需要外部计算机软件。微软有信心每年投资500亿美元来扩展到AGI或ASI系统。

OpenAI Q* 可通过一种自动化且可扩展的方式自我进化

极道
极道 · 2023-11-24T02:35:00Z

A*和Q*是两种不同的AI算法,A*是一种寻路和图遍历算法,适用于视频游戏中的NPC移动、GPS系统中的路线映射和机器人导航;Q*是一种无模型强化学习算法,适用于股票交易算法、自动驾驶汽车和自适应控制系统。A*适用于确定性问题,Q*适用于随机环境。A*是静态算法,Q*是学习算法。A*以高效著称,Q*寻求最优策略。A*的计算复杂度低于Q*。

人工智能算法A*与Q*比较

极道
极道 · 2023-11-24T00:48:00Z

OpenAI最新进展包括Q*搜索、ELBO、AlphaZero式的“零”学习和PPO等技术,提高了人工智能系统的决策速度、准确性和自学习能力。这些技术在复杂情况下找到最佳解决方案,并克服了数据稀缺的问题,推动了人工智能在各个领域的应用。

OpenAI最新涌现:Q*+Zero+ELBO+PPO

极道
极道 · 2023-11-23T23:18:00Z

OpenAI泄露了名为Q*的人工智能突破,它在小学数学方面表现出色。Q*是Q-learning和A*的组合。DeepMind正在研究与AlphaGo类似的蒙特卡罗树搜索。这些突破可能对规划和代理行为有重要影响。OpenAI的突破性Q*可能是解决数学问题的一种方法。虽然数学成绩只相当于小学生水平,但研究人员对Q*的未来成功非常乐观。

OpenAI宫斗背后的秘密武器:Q*超级人工智能

极道
极道 · 2023-11-23T22:57:00Z

OpenAI的突破涉及Q*(Q-star)和奥特曼被解雇有关。Q-learning是一种强化学习方法,最近与transformers和LLM结合取得进展。特斯拉和谷歌的Gemini模型也可能采用了Q-learning。Q*是最优行动函数,寻找Q*涉及训练代理以最大化累积奖励。Q-learning在单智能体游戏中受欢迎,因为它将其他智能体建模为环境中的简单特征。Q-learning和A*搜索结合可用于优化文本生成和多轮对话。这一突破意味着AGI的诞生。

OpenAI突破:Q*超级智能

极道
极道 · 2023-11-23T08:45:00Z

OpenAI的高管Mira Murati告诉员工,一封关于人工智能突破的信促使董事会采取行动。OpenAI在名为Q*的项目上取得了进展,可能是寻找超级智能的突破。研究人员对该项目的未来成功感到乐观。几名研究人员向董事会发出警告信,称强大的人工智能可能威胁人类。董事会罢免代表奥特曼的人工智能。700多名员工威胁要辞职并加入微软以支持被解雇的领导人。

路边社:奥特曼因超级智能Q*突破被罢免

极道
极道 · 2023-11-22T23:29:00Z
  • <<
  • <
  • 1 (current)
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
友情链接: MOGE.AI 九胧科技 模力方舟 Gitee AI 菜鸟教程 Remio.AI DeekSeek连连 53AI 神龙海外代理IP IPIPGO全球代理IP 东波哥的博客 匡优考试在线考试系统 开源服务指南 蓝莺IM Solo 独立开发者社区 AI酷站导航 极客Fun 我爱水煮鱼 周报生成器 He3.app 简单简历 白鲸出海 T沙龙 职友集 TechParty 蟒周刊 Best AI Music Generator

小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码