小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI

本研究针对传统蒙特卡罗树搜索在高不确定性和噪声数据环境中的决策不足问题,提出了一种新颖的奖励中心ReST-MCTS框架,通过引入中间奖励塑造来增强搜索效率。实验结果表明,该方法在机器人操作任务中相比传统方法提高了2-4%的决策准确性,且在不同不确定性水平下表现出良好的稳健性。

以奖励为中心的ReST-MCTS:高不确定环境下机器人操作的稳健决策框架

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-03-07T00:00:00Z

本研究解决了现有基于大型语言模型(LLM)的自主机器学习代理在代码生成时存在的低多样性和次优质量问题。我们提出了一种新的自省蒙特卡洛树搜索方法(I-MCTS),通过分析父节点和兄弟节点的解决方案来不断优化搜索树中的节点,从而提高决策过程的整体质量。实验证明,该方法在各种机器学习任务中相较于其他开源AutoML代理表现出6%的绝对性能提升。

I-MCTS:通过自省蒙特卡洛树搜索提升自主AutoML

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-02-20T00:00:00Z

本研究提出了HiAR-ICL范式,克服了传统上下文学习在复杂数学推理中的局限性,通过抽象思维和推理动作实现了79.6%的准确率,超越了现有模型。

Beyond Examples: An Advanced Automated Reasoning Paradigm in Contextual Learning Based on MCTS

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-11-27T00:00:00Z

蒙特卡罗树搜索(MCTS)算法在复杂环境中优化决策,广泛应用于工业领域,如制造优化、供应链管理和机器人自动化。通过选择、扩展、模拟和回溯四个阶段,MCTS有效平衡探索与利用,尽管面临计算能力和数据质量挑战,仍展现巨大潜力。

在工业场景中利用蒙特卡罗树搜索算法

DEV Community
DEV Community · 2024-10-16T01:57:59Z

文章介绍了OpenAI o1模型在物理、化学、生物学等领域的强大能力。通过大规模强化学习和“思维链”策略,o1提升了推理能力,能识别和纠正错误,并将复杂问题分解为简单步骤。文章还提到结果监督和过程监督的奖励模型,强调过程监督在解决复杂问题中的优势。复旦大学的R3方法通过逆向推理学习,增强了大型语言模型的推理能力。

一文通透OpenAI o1:从CoT、Quiet-STaR、Self-Correct、Self-play RL、MCTS等技术细节到工程复现

结构之法 算法之道
结构之法 算法之道 · 2024-10-12T10:37:59Z

本文介绍了一种基于AlphaZero的MCTS包装器,结合时间差异学习智能体,在多个复杂游戏中取得显著优势。研究探讨了AlphaZero和MuZero的局限性,提出了新的测试方法,并展示了在Atari游戏中使用transformer模型的最佳性能。此外,介绍了LuckyMera AI框架和MiniZero零知识学习框架,强调了渐进式模拟在棋盘游戏中的优越表现,为未来研究提供了基准。

灵活的游戏智能体:使用 AlphaViT 适应多种游戏和棋盘尺寸

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-08-25T00:00:00Z
一直爆料OpenAI「草莓」的账号,竟然是个智能体?斯坦福系创企「炒作」AgentQ

MultiOn声称开发了一种名为Agent Q的AI代理,该代理结合了MCTS和DPO算法来控制“草莓哥”账户。它的表现比LLama 3基线高出3.4倍,并在实际任务中达到了95.4%的成功率。然而,有人指责其营销策略。文章提供了Agent Q组件和方法的技术细节。

一直爆料OpenAI「草莓」的账号,竟然是个智能体?斯坦福系创企「炒作」AgentQ

机器之心
机器之心 · 2024-08-14T06:48:41Z

本文介绍了一种基于蒙特卡洛树搜索(MCTS)的去中心化合作规划方法,应用于自动驾驶车辆的协调与建模。研究提出了多种改进算法,包括基于约束的MCTS、辅助模型加速的MCTS,以及结合启发式和学习方法的综合框架,旨在提高规划效率并满足代价约束。实验结果表明,这些方法在电网恢复和路径规划等实际应用中表现优异。

基于 MCTS 的面向连续运输的自主车辆调度

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-07-23T00:00:00Z

本文探讨了蒙特卡洛树搜索(MCTS)的多种改进和应用,包括MCTSnet、CMCGS和AmEx-MCTS等新方法。这些方法通过结合神经网络、连续状态空间和优化策略,显著提升了搜索效率和规划性能,尤其在路径规划和多智能体问题中表现优异。

通过计算树逻辑实现顺序规划的 MCTS 可解释性

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-07-15T00:00:00Z

本文探讨了蒙特卡罗树搜索(MCTS)在游戏及其他领域的应用,提出结合深度学习和优化算法的新方法,显著提升搜索效果和游戏表现。研究表明,MCTS在高维问题和复杂游戏中表现优越,验证了专家知识与策略原则的有效性。

将组合优化引入 MCTS 方法:应用于棋盘游戏 boop

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-06-13T00:00:00Z

基于强化学习的 ReST-MCTS* 方法结合过程奖励模型与树搜索 MCTS*,获取高质量的推理轨迹用于训练策略和奖励模型,在 LLM 自我训练中取得了更高的准确性和性能。

ReST-MCTS*: LLM 自训练通过过程奖励引导的树搜索

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-06-06T00:00:00Z

本文介绍了将大型语言模型应用于代码优化的方法。研究人员提出了一个从头开始训练的变换器模型,用于优化LLVM汇编的代码大小。该模型在训练过程中要求预测优化前后的指令计数和优化后的代码本身,这提高了模型的优化性能和理解深度。在大量测试程序上评估后,该方法在减少指令计数方面比编译器效果提高了3.0%,并显示出强大的代码推理能力。

发挥每一步的价值:基于 LLM 的高质量 RTL 代码生成使用 MCTS

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-02-05T00:00:00Z

本研究采用深度学习与计算博弈相结合的新方法,通过Mixture of Experts(MoE)方法和Monte-Carlo Tree Search(MCTS)提高计算机棋类游戏的表现。实验结果显示该综合方法显著提升了游戏的强度,验证了专家知识与策略原则融入神经网络设计的潜力。

多人联手绝杀一方:将 Mixture of Experts 与 MCTS 相结合以提升国际象棋

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-01-30T00:00:00Z

该论文研究了约束优化问题的深度优先搜索算法,提出了一种基于MCTS的启发式神经网络算法。实验结果显示该方法能够快速找到与最优解间隔小于17.63%的解,并在约束满足问题中搜索节点数减少不到5%。

BalMCTS: 在 MCTS 中平衡目标函数和搜索节点,用于约束优化问题

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2023-12-26T00:00:00Z

该文介绍了一种名为KCTS的知识约束解码方法,通过知识分类器分数和MCTS,在每个解码步骤上引导模型生成与参考知识一致的文本,以减少大型语言模型产生误信息的潜力。同时,作者还提出了一种新的标记级幻觉检测方法RIPA。实证结果表明,KCTS作为一种即插即用、模型不可知的解码方法,能有效减少自然语言生成中的幻觉。

KCTS: 基于知识约束的树搜索解码与令牌级幻觉检测

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2023-10-13T00:00:00Z

该研究结合MCTS和PPO生成自然语言文本,相较于仅使用PPO策略,PPO-MCTS提高了生成文本的优越性,证明了搜索算法在语言模型上的潜力和价值网络的未充分探索的好处。

进一步改进 PPO 算法:基于值导向的蒙特卡罗树搜索解码

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2023-09-26T00:00:00Z

本文介绍了一种基于模型的强化学习技术,将Monte-Carlo树搜索应用于无限期Marov决策过程的有限期版本,并使用值函数和策略函数的组合来规定有限期问题的终端条件或决策树的叶节点评估器。作者还提供了第一个基于树搜索的强化学习算法的样本复杂度边界,并证明由深度神经网络实现的技术能够创建一种竞争性人工智能代理。

正式 - DAgger 用于 MCTS:使用形式方法的数据聚合实现更低延迟的蒙特卡洛树搜索

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2023-08-15T00:00:00Z
  • <<
  • <
  • 1 (current)
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
友情链接: MOGE.AI 九胧科技 模力方舟 Gitee AI 菜鸟教程 Remio.AI DeekSeek连连 53AI 神龙海外代理IP IPIPGO全球代理IP 东波哥的博客 匡优考试在线考试系统 开源服务指南 蓝莺IM Solo 独立开发者社区 AI酷站导航 极客Fun 我爱水煮鱼 周报生成器 He3.app 简单简历 白鲸出海 T沙龙 职友集 TechParty 蟒周刊 Best AI Music Generator

小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码