小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI
沉浸式翻译 immersive translate

仅仅一年后,AlphaZero 横空出世——没有人类棋谱、没有经验指导,只靠自我博弈,便在短时间内超越了所有 AlphaGo...

从 AlphaGo 到 AlphaZero:企业智能化的三重进化

dotNET跨平台
dotNET跨平台 · 2025-10-20T00:01:28Z

绝对零监督Absolute Zero:类AlphaZero自博弈赋能大模型推理,全新零数据训练范式问世

机器之心
机器之心 · 2025-05-08T02:27:11Z

本研究提出了AlphaZero-Edu,一个轻量级的教育导向强化学习框架,优化资源利用效率,并在Gomoku比赛中表现出色,支持学术研究和工业应用。

AlphaZero-Edu:让每个人都能接触到AlphaZero

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-04-20T00:00:00Z
魔改AlphaZero后,《我的世界》AI老玩家问世,干活不用下指令

研究人员提出了一种名为AssistanceZero的新算法,通过“协助游戏”训练AI助手,使其能够主动学习和适应用户意图,克服了传统RLHF的缺陷。该算法在复杂环境中表现优异,显著提升了AI助手的协作能力。

魔改AlphaZero后,《我的世界》AI老玩家问世,干活不用下指令

机器之心
机器之心 · 2025-04-12T08:02:51Z

本研究提出了一种混合MCTS算法“搜索轻蔑”,有效解决了AlphaZero自我对弈时的高计算资源消耗问题,显著提升了Odds Chess的表现,并减少了训练所需的资源和时间。

搜索轻蔑:一种提升AlphaZero类引擎计算效率的混合MCTS算法

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-04-10T00:00:00Z

本研究探讨了AlphaZero风格的强化学习算法在NIM游戏中学习最优策略的挑战。通过利用游戏历史信息,受限模型理论上能够实现NIM的最佳玩法,表明合理设计的神经网络在计算能力有限的情况下也能做出复杂决策。

利用弱神经网络掌握NIM和无偏游戏:一种类似AlphaZero的多帧方法

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-11-10T00:00:00Z

研究发现预训练代理器在面对全新设计时可能偏离轨道,对搜索轨迹产生不利影响。提出了ABC-RL,通过调整α参数来优化搜索过程。ABC-RL在硬件设计中提供了优越的综合方案,改进了合成电路质量结果,性能提高了24.8%。与最先进方法相比,ABC-RL减少了9倍的运行时间。

短路:基于AlphaZero的电路设计

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-08-19T00:00:00Z
没想到!AlphaZero式树搜索也能用来增强大语言模型推理与训练

TSLLM是一种结合了AlphaZero方法和大语言模型的树搜索训练增强框架,通过学习价值函数提供可靠的搜索中间价值评估。实验证明TSLLM在数学推理、逻辑推理和决策推理等任务上表现良好。文章还讨论了树搜索算法的适应性和扩展性,并验证了迭代优化可以进一步提升大语言模型的能力。

没想到!AlphaZero式树搜索也能用来增强大语言模型推理与训练

机器之心
机器之心 · 2024-07-10T03:34:32Z

How MuZero, AlphaZero, and AlphaDev are optimizing the computing ecosystem that powers our world of devices.

MuZero, AlphaZero, and AlphaDev: Optimizing computer systems

Google DeepMind Blog
Google DeepMind Blog · 2023-06-12T14:41:00Z

How MuZero, AlphaZero, and AlphaDev are optimizing the computing ecosystem that powers our world of devices.

MuZero, AlphaZero, and AlphaDev: Optimizing computer systems

Google DeepMind Blog
Google DeepMind Blog · 2023-06-12T14:41:00Z

How MuZero, AlphaZero, and AlphaDev are optimizing the computing ecosystem that powers our world of devices.

MuZero, AlphaZero, and AlphaDev: Optimizing computer systems

Google DeepMind Blog
Google DeepMind Blog · 2023-06-12T14:41:00Z

How MuZero, AlphaZero, and AlphaDev are optimizing the computing ecosystem that powers our world of devices.

MuZero, AlphaZero, and AlphaDev: Optimizing computer systems

Google DeepMind Blog
Google DeepMind Blog · 2023-06-12T14:41:00Z

How MuZero, AlphaZero, and AlphaDev are optimizing the computing ecosystem that powers our world of devices.

MuZero, AlphaZero, and AlphaDev: Optimizing computer systems

Google DeepMind Blog
Google DeepMind Blog · 2023-06-12T14:41:00Z

How MuZero, AlphaZero, and AlphaDev are optimizing the computing ecosystem that powers our world of devices.

MuZero, AlphaZero, and AlphaDev: Optimizing computer systems

Google DeepMind Blog
Google DeepMind Blog · 2023-06-12T14:41:00Z

How MuZero, AlphaZero, and AlphaDev are optimizing the computing ecosystem that powers our world of devices.

MuZero, AlphaZero, and AlphaDev: Optimizing computer systems

Google DeepMind Blog
Google DeepMind Blog · 2023-06-12T14:41:00Z

How MuZero, AlphaZero, and AlphaDev are optimizing the computing ecosystem that powers our world of devices.

MuZero, AlphaZero, and AlphaDev: Optimizing computer systems

Google DeepMind Blog
Google DeepMind Blog · 2023-06-12T14:41:00Z

How MuZero, AlphaZero, and AlphaDev are optimizing the computing ecosystem that powers our world of devices.

MuZero, AlphaZero, and AlphaDev: Optimizing computer systems

Google DeepMind Blog
Google DeepMind Blog · 2023-06-12T14:41:00Z

How MuZero, AlphaZero, and AlphaDev are optimizing the computing ecosystem that powers our world of devices.

MuZero, AlphaZero, and AlphaDev: Optimizing computer systems

Google DeepMind Blog
Google DeepMind Blog · 2023-06-12T14:41:00Z

How MuZero, AlphaZero, and AlphaDev are optimizing the computing ecosystem that powers our world of devices.

MuZero, AlphaZero, and AlphaDev: Optimizing computer systems

Google DeepMind Blog
Google DeepMind Blog · 2023-06-12T14:41:00Z
  • <<
  • <
  • 1 (current)
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码