小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI

本研究提出了一种去中心化分布式近端策略优化(DD-PPO)算法,旨在解决高性能计算环境中的资源分配与作业调度问题。该算法在多用户系统中显著提高了调度效率和灵活性,优于传统调度方法和现有强化学习调度技术。

面向高性能计算调度的去中心化分布式近端策略优化(DD-PPO)

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-05-06T00:00:00Z

本研究采用深度强化学习和近端策略优化算法,成功训练出能够通过视觉输入实现专业圈速的赛车驾驶代理,有效解决了紧急情况下的轮胎抓地力控制问题。

Vision-Based Racing Simulation Driving Agent

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-04-14T00:00:00Z

本研究提出了解耦价值策略优化(DVPO)框架,解决了传统近端策略优化(PPO)在大语言模型训练中的计算复杂性和不稳定性问题,显著降低了GPU内存和训练时间,并在多个基准测试中优于其他强化学习方法。

精简与强大:具有全球价值指导的解耦价值策略优化

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-02-24T00:00:00Z

本研究构建了基于约束的马尔可夫决策过程模型,采用深度确定性策略梯度和近端策略优化进行训练。通过将策略参数投影到可行解集合,实现了策略的约束满足和高效的数据利用。评估结果显示该算法在模拟任务和室内机器人导航中表现有效。

弥补学习规划、运动原语与安全强化学习之间的差距

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-08-26T00:00:00Z

本文探讨了一种通过自然语言生成问题并转化为代码的方法,以提高大型语言模型在数学问题求解中的准确性。引入了近端策略优化算法和注意力机制,实验证明该方法在多个数学计算数据集上有效。此外,提出了 REval 框架以评估代码推理能力,强调提升代码 LLM 的迫切需求。

语言模型作为编译器:模拟伪代码执行提升语言模型的算法推理能力

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-04-03T00:00:00Z

该研究使用西门子公司提供的热力学软件,通过模拟不确定性,实施了三种深度强化学习算法来处理燃气轮机调度问题。其中,深度 Q 网络(DQN)获得了最高奖励,近端策略优化(PPO)是最高效的方法。还提出了一种动态分配燃气轮机运行和维护成本的方法,更好地近似了现代燃气轮机调度的真实成本。

使用神经微分方程和强化学习的托卡马克放电阶段的主动干扰避免和轨迹设计

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-02-14T00:00:00Z
  • <<
  • <
  • 1 (current)
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码