小红花·文摘

本研究提出了一种去中心化分布式近端策略优化（DD-PPO）算法，旨在解决高性能计算环境中的资源分配与作业调度问题。该算法在多用户系统中显著提高了调度效率和灵活性，优于传统调度方法和现有强化学习调度技术。

BriefGPT - AI 论文速递 ·

本研究采用深度强化学习和近端策略优化算法，成功训练出能够通过视觉输入实现专业圈速的赛车驾驶代理，有效解决了紧急情况下的轮胎抓地力控制问题。

BriefGPT - AI 论文速递 ·

本研究提出了解耦价值策略优化（DVPO）框架，解决了传统近端策略优化（PPO）在大语言模型训练中的计算复杂性和不稳定性问题，显著降低了GPU内存和训练时间，并在多个基准测试中优于其他强化学习方法。

BriefGPT - AI 论文速递 ·

本研究构建了基于约束的马尔可夫决策过程模型，采用深度确定性策略梯度和近端策略优化进行训练。通过将策略参数投影到可行解集合，实现了策略的约束满足和高效的数据利用。评估结果显示该算法在模拟任务和室内机器人导航中表现有效。

BriefGPT - AI 论文速递 ·

本文探讨了一种通过自然语言生成问题并转化为代码的方法，以提高大型语言模型在数学问题求解中的准确性。引入了近端策略优化算法和注意力机制，实验证明该方法在多个数学计算数据集上有效。此外，提出了 REval 框架以评估代码推理能力，强调提升代码 LLM 的迫切需求。

BriefGPT - AI 论文速递 ·

该研究使用西门子公司提供的热力学软件，通过模拟不确定性，实施了三种深度强化学习算法来处理燃气轮机调度问题。其中，深度 Q 网络（DQN）获得了最高奖励，近端策略优化（PPO）是最高效的方法。还提出了一种动态分配燃气轮机运行和维护成本的方法，更好地近似了现代燃气轮机调度的真实成本。

BriefGPT - AI 论文速递 ·