小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI

本研究提出了一种基于大型语言模型的五子棋AI系统,旨在解决五子棋战略规划中的挑战。该系统通过自我对弈和强化学习提升棋步选择能力,解决生成非法位置的问题,并通过并行评估减少处理时间。

Strategic Gomoku System Based on Large Language Models: Self-Play and Reinforcement Learning

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-03-27T00:00:00Z

本研究通过在Waymo开放运动数据集上进行自我对弈训练,显著提升了自动驾驶代理的可靠性,达成99.8%的目标,展示了其在多种场景下的鲁棒性。

Building Reliable Simulated Driving Agents through Self-Play Expansion

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-02-20T00:00:00Z
自我对弈产生鲁棒的自主驾驶

自我对弈在两人和多人游戏中取得突破,现证明其在驾驶模拟中同样有效。通过GigaFlow模拟器进行16亿公里的自我驾驶训练,生成的策略在三项自动驾驶基准测试中表现优异,并在真实场景中超越以往最佳表现,展现出前所未有的鲁棒性。

自我对弈产生鲁棒的自主驾驶

Apple Machine Learning Research
Apple Machine Learning Research · 2025-02-13T00:00:00Z

本研究提出了“自我对弈强化学习”(RLSP)框架,旨在提升大型预训练语言模型在数学推理方面的能力。研究结果表明,RLSP显著提高了模型推理的多样性和准确性。

The Emergence of Thought in Large Reasoning Models I: Seeking the Right Intuition

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-02-10T00:00:00Z

本研究提出了一种视觉语言模型对话游戏,通过自我对弈生成高质量的图像和文本数据,解决了训练数据不足的问题,显著提升了下游任务的性能,具有广泛的应用潜力。

视觉语言模型对话游戏自我提升

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-02-04T00:00:00Z

本研究提出了SMAC-HARD基准,旨在解决多智能体强化学习中对手策略多样性不足的问题。通过支持可定制的对手策略和无监督自我对弈,增强了训练的鲁棒性,促进了多智能体强化学习算法的发展。

SMAC-Hard: Enabling Mixed Opponent Strategy Scripts and Self-Play in SMAC

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-12-23T00:00:00Z

本文探讨了通过自我对弈的辩论游戏训练AI,以提高其在复杂任务中的表现。研究表明,辩论能够帮助非专家更准确地判断真相,并提升AI系统的可靠性。大型语言模型在辩论中表现出色,能够有效预测答案的准确性。研究还提出了评估框架和优化方法,以改善模型的批判能力和任务表现,为未来的AI应用提供指导。

通过自我对弈训练语言模型赢得辩论提升评估准确性

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-09-25T00:00:00Z
在 o1 发布后,回顾当年 Jim Fan 对 Q*的预测,他对了吗?

吉姆·范对Q*的预测是准确的,他将其与AlphaGo进行比较,并建议通过自我对弈来改进。AlphaGo的架构包括策略神经网络、价值神经网络、蒙特卡洛树搜索和胜负判断。吉姆建议使用数学问题来训练具有策略神经网络、价值神经网络、搜索和胜负判断的大型语言模型。对于o1来说,推广到其他领域仍然是一个挑战。o1在数学和编程方面表现良好,但在其他领域需要改进以实现通用人工智能。在写作方面,o1不如GPT-4o。

在 o1 发布后,回顾当年 Jim Fan 对 Q*的预测,他对了吗?

宝玉的分享
宝玉的分享 · 2024-09-15T12:00:00Z
在 o1 发布后,回顾当年 Jim Fan 对 Q*的预测,他对了吗?

Jim Fan 预测 Q* 通过自我对弈不断进步,架构包括策略神经网络、价值神经网络、搜索和输赢判定。他提出利用数学问题训练大语言模型,以探索推理和生成能力。o1 在数学和编程领域表现突出,但其能力是否能泛化到其他领域仍需验证。

在 o1 发布后,回顾当年 Jim Fan 对 Q*的预测,他对了吗?

宝玉的分享
宝玉的分享 · 2024-09-15T12:00:00Z

本研究探讨了不完全信息游戏中的策略优化,采用自我对弈和强化学习提升代理性能,提出新算法和模型以改善机器学习在量子信息科学中的应用,展示了信息感知网络和贝叶斯算法的高效性。

基于神经网络的信息集加权在玩侦察盲棋中的应用

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-07-08T00:00:00Z

本文研究了大型语言模型(LLMs)在协商游戏中的自我提升能力。通过多轮游戏使用不同模型(如GPT和Claude),评估交易价格以探索自我对弈和强化学习的有效性。研究表明,模型在推理能力和策略改进上显著提升,并提出KL正则化方法以解决性能不稳定问题,实证研究验证了这些方法的有效性。

语言模型自对弈在非零和博弈中的效果

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-06-27T00:00:00Z

我们提出了一种新的架构,利用多个经过训练的LLMs的集体知识,创建了一个最先进的模型。通过自我对弈的循环,生成编排器的训练数据。在基准测试中,我们的编排器实现了与Mixtral模型相媲美的性能,但只有三分之二的成本。将GPT4集成到底层模型池中进一步提高了性能。这些发现表明我们的架构在优化多个LLMs之间的协同作用方面具有潜力。

Neeko: 提高效率的多角色扮演智能体的动态 LoRA 利用

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-02-21T00:00:00Z

该文介绍了一种在多代理合作游戏中生成多样化约定的技术,能够超越人类水平的性能。此外,该文还推荐了其他与多智能体强化学习相关的论文。

人工智能与人类合作的多元规范

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2023-10-24T00:00:00Z

西西弗斯不断推石头上山,经历无尽的惩罚与痛苦。他在重复的循环中感到麻木,甚至想自杀,但最终意识到声音来自自己。他决定不放弃,寻找乐趣,通过围棋与自己对弈,努力让生活充满意义。

我,西西弗斯

学无止境@一点一滴
学无止境@一点一滴 · 2022-06-20T05:45:12Z
  • <<
  • <
  • 1 (current)
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
友情链接: MOGE.AI 九胧科技 模力方舟 Gitee AI 菜鸟教程 Remio.AI DeekSeek连连 53AI 神龙海外代理IP IPIPGO全球代理IP 东波哥的博客 匡优考试在线考试系统 开源服务指南 蓝莺IM Solo 独立开发者社区 AI酷站导航 极客Fun 我爱水煮鱼 周报生成器 He3.app 简单简历 白鲸出海 T沙龙 职友集 TechParty 蟒周刊 Best AI Music Generator

小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码