小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI
一分钟读论文:《Agent实现AlphaZero流水线》

研究者评估了四个编程Agent在自主实现AlphaZero自对弈流水线的能力。Claude Opus 4.7在八次试验中七次击败Pascal Pons求解器,显示出显著优势。研究提出了“简洁任务描述+端到端实现”的评估方法,强调Agent的自主理解和设计能力。实验结果表明,前沿Agent在能力上存在巨大差距,Claude Opus 4.7的表现尤为突出。

一分钟读论文:《Agent实现AlphaZero流水线》

Micropaper
Micropaper · 2026-04-30T00:00:00Z
从 AlphaGo 到 AlphaZero:企业智能化的三重进化

AlphaGo与AlphaZero的演变展示了人工智能在决策中的进步。企业决策经历了三个阶段:依赖人类经验、算法辅助决策、到强化学习自我演化。未来企业需快速学习与适应,成为AI原生企业,推动智能化重构。

从 AlphaGo 到 AlphaZero:企业智能化的三重进化

dotNET跨平台
dotNET跨平台 · 2025-10-20T00:01:28Z

机器之心数据服务现已上线,提供高效、稳定的数据获取服务,简化数据爬取流程。

绝对零监督Absolute Zero:类AlphaZero自博弈赋能大模型推理,全新零数据训练范式问世

机器之心
机器之心 · 2025-05-08T02:27:11Z

本研究提出了AlphaZero-Edu,一个轻量级的教育导向强化学习框架,旨在解决现有框架的复杂性和可重复性问题。该框架采用模块化设计,优化资源利用,并在Gomoku比赛中表现优异,为学术研究和工业应用提供了易于接入的基准。

AlphaZero-Edu: Making AlphaZero Accessible to Everyone

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-04-20T00:00:00Z
魔改AlphaZero后,《我的世界》AI老玩家问世,干活不用下指令

研究人员提出了一种名为AssistanceZero的新算法,通过“协助游戏”训练AI助手,使其能够主动学习和适应用户意图,克服了传统RLHF的缺陷。该算法在复杂环境中表现优异,显著提升了AI助手的协作能力。

魔改AlphaZero后,《我的世界》AI老玩家问世,干活不用下指令

机器之心
机器之心 · 2025-04-12T08:02:51Z

本研究提出了一种名为“搜索轻蔑”的混合MCTS算法,旨在提高AlphaZero类引擎的计算效率。该算法通过优先生成更具挑战性的局面,显著提升了在Odds Chess中的表现,并减少了训练所需的计算资源和时间,展现了高效自我训练的潜力。

Search-Contempt: A Hybrid MCTS Algorithm for Enhancing Computational Efficiency of AlphaZero-like Engines

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-04-10T00:00:00Z

本文介绍了多种强化学习算法,如MuZero、ReBeL和DanZero,展示了它们在复杂游戏中的超人类表现。MuZero结合树搜索与学习模型,ReBeL在德州扑克中表现优异,DanZero在复杂卡牌游戏中展现出色性能。这些研究推动了AI在博弈领域的应用与发展。

利用弱神经网络掌握NIM和无偏游戏:一种类似AlphaZero的多帧方法

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-11-10T00:00:00Z

L2DC是一种基于强化学习的电路设计方法,能够自动优化电路参数,提高设计效率和准确率。研究表明,结合强化学习和图神经网络可以实现电路设计的知识转移,显著改善逻辑综合性能。新算法INVICTUS和DeepGate2在电路面积和运行时间上均有显著提升,展示了强化学习在电路设计中的潜力。

短路:基于AlphaZero的电路设计

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-08-19T00:00:00Z
没想到!AlphaZero式树搜索也能用来增强大语言模型推理与训练

TSLLM是一种结合了AlphaZero方法和大语言模型的树搜索训练增强框架,通过学习价值函数提供可靠的搜索中间价值评估。实验证明TSLLM在数学推理、逻辑推理和决策推理等任务上表现良好。文章还讨论了树搜索算法的适应性和扩展性,并验证了迭代优化可以进一步提升大语言模型的能力。

没想到!AlphaZero式树搜索也能用来增强大语言模型推理与训练

机器之心
机器之心 · 2024-07-10T03:34:32Z

我们正在开发更强大的人工智能工具,以提升计算能力。通过强化学习,AlphaZero和MuZero在游戏中表现出色,并已应用于计算芯片设计、数据中心优化和视频压缩。AlphaDev发现了更快的排序和哈希算法,显著提高了数据处理效率。这些进展展示了通用人工智能工具的潜力,将优化全球计算生态系统。

MuZero、AlphaZero 和 AlphaDev:优化计算系统

Google DeepMind Blog
Google DeepMind Blog · 2023-06-12T14:41:00Z

How MuZero, AlphaZero, and AlphaDev are optimizing the computing ecosystem that powers our world of devices.

MuZero, AlphaZero, and AlphaDev: Optimizing computer systems

Google DeepMind Blog
Google DeepMind Blog · 2023-06-12T14:41:00Z

How MuZero, AlphaZero, and AlphaDev are optimizing the computing ecosystem that powers our world of devices.

MuZero, AlphaZero, and AlphaDev: Optimizing computer systems

Google DeepMind Blog
Google DeepMind Blog · 2023-06-12T14:41:00Z

How MuZero, AlphaZero, and AlphaDev are optimizing the computing ecosystem that powers our world of devices.

MuZero, AlphaZero, and AlphaDev: Optimizing computer systems

Google DeepMind Blog
Google DeepMind Blog · 2023-06-12T14:41:00Z

How MuZero, AlphaZero, and AlphaDev are optimizing the computing ecosystem that powers our world of devices.

MuZero, AlphaZero, and AlphaDev: Optimizing computer systems

Google DeepMind Blog
Google DeepMind Blog · 2023-06-12T14:41:00Z

How MuZero, AlphaZero, and AlphaDev are optimizing the computing ecosystem that powers our world of devices.

MuZero, AlphaZero, and AlphaDev: Optimizing computer systems

Google DeepMind Blog
Google DeepMind Blog · 2023-06-12T14:41:00Z

How MuZero, AlphaZero, and AlphaDev are optimizing the computing ecosystem that powers our world of devices.

MuZero, AlphaZero, and AlphaDev: Optimizing computer systems

Google DeepMind Blog
Google DeepMind Blog · 2023-06-12T14:41:00Z

How MuZero, AlphaZero, and AlphaDev are optimizing the computing ecosystem that powers our world of devices.

MuZero, AlphaZero, and AlphaDev: Optimizing computer systems

Google DeepMind Blog
Google DeepMind Blog · 2023-06-12T14:41:00Z

How MuZero, AlphaZero, and AlphaDev are optimizing the computing ecosystem that powers our world of devices.

MuZero, AlphaZero, and AlphaDev: Optimizing computer systems

Google DeepMind Blog
Google DeepMind Blog · 2023-06-12T14:41:00Z

How MuZero, AlphaZero, and AlphaDev are optimizing the computing ecosystem that powers our world of devices.

MuZero, AlphaZero, and AlphaDev: Optimizing computer systems

Google DeepMind Blog
Google DeepMind Blog · 2023-06-12T14:41:00Z

How MuZero, AlphaZero, and AlphaDev are optimizing the computing ecosystem that powers our world of devices.

MuZero, AlphaZero, and AlphaDev: Optimizing computer systems

Google DeepMind Blog
Google DeepMind Blog · 2023-06-12T14:41:00Z
  • <<
  • <
  • 1 (current)
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码