小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI

全球首个分布式强化学习模型INTELLECT-2发布,利用闲置算力进行训练,显著降低成本,性能接近DeepSeek-R1。该模型去中心化,任何人可参与训练,可能改变大公司对算力的垄断。团队已获得Karpathy等投资,未来将扩展去中心化训练。

全球闲置算力训个模型,性能媲美R1,老黄天塌了!Karpathy曾投资它

量子位
量子位 · 2025-05-13T05:52:30Z

本文提出了一种新型分布式强化学习架构,利用归一化流模型返回分布,显著提升了参数效率,并在ATARI-5测试中超越了传统方法。

面向无限制和几何感知的分布式强化学习的流模型

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-05-07T00:00:00Z
DeepSeek关键RL算法GRPO,有人从头跑通了,贡献完整代码

GRPO算法通过组内样本比较计算策略梯度,降低训练不稳定性并提高效率。Andriy Burkov发布了基于Qwen2.5-1.5B-Instruct模型的GRPO实现教程,涵盖数据准备、评估和奖励函数,最终实现模型微调,显著提升准确率。

DeepSeek关键RL算法GRPO,有人从头跑通了,贡献完整代码

机器之心
机器之心 · 2025-03-02T06:16:41Z

本研究提出了一种新颖的逆强化学习方法,解决了固定奖励分配和隐式奖励正则化的灵活性问题。通过引入平方时间差正则化器和自适应目标动态调整,我们的方法在模仿学习中优化了奖励函数,并结合分布式强化学习,在MuJoCo任务上取得了优异的实验结果。

RIZE:通过分布式强化学习的正则化模仿学习

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-02-27T00:00:00Z

本文介绍了分布式强化学习的新算法和理论进展,包括EDRL、ER-DQN和CODAC,强调了在不同任务中学习奖励分布和风险规避策略的有效性。同时,研究探讨了离线强化学习的二阶上界及其实际应用优势,提出了新的模型和算法框架,展示了在复杂环境中优化学习的潜力。

高维奖励的离策略强化学习

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-08-14T00:00:00Z

本文介绍了一种基于分布式强化学习的方法,通过分位回归逼近状态-动作回报分布,在57个Atari 2600游戏中表现优越。该算法显著优于传统DQN改进方案,并探讨了风险敏感性政策的效果。此外,研究提出了新算法QPO和D4PG,展示了在复杂控制任务中的先进性能。

PG-Rainbow:在策略梯度方法中应用分布式强化学习

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-07-18T00:00:00Z

本研究提出了一种新算法,使多个机器人能够高效协调,平衡中央集权与去中心化的决策。重点关注权重最大化问题,引入非相邻信息的集中化概念,并探讨了基于观察的控制器学习算法和分布式强化学习,以提升多智能体系统的性能。通过结合卷积神经网络和图神经网络,解决了多机器人路径规划中的通信问题,并验证了其有效性。

多机器人网络中高效通信和计算的分布式决策制定

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-07-15T00:00:00Z

本文探讨了基于分布式强化学习的电池控制框架,旨在通过能源套利实现系统平衡,优化套利利润与风险。研究提出多种强化学习算法,以提升电网控制系统的安全性和鲁棒性,增强可再生能源和储能发电的操作效率,最终实现市场收益的显著提升和损耗的降低。

基于强化学习的能量套利策略的控制策略纠正框架

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-04-29T00:00:00Z

本文提出了一种基于随机化和多智能体系统的分布式强化学习算法DLMD-DiffEx,通过与本地邻居通信优化全局回报。研究了在信号传输受限和噪声影响下的分散优化问题,确保局部估计的收敛性,并探讨了动态网络中代理估计的对齐及收敛性分析,展示了良好的收敛效果。

分布式噪声链路最大一致性

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-03-27T00:00:00Z

该论文研究了一种分布式强化学习方法,用于实现多智能体马尔可夫决策过程中的网络目标。通过稀疏通信网络上的局部处理和信息交流,实现了代理协作。该分布式方案在几乎确定的情况下,逐渐实现了各个网络层面上的期望值函数和最优静止控制策略。

多时间尺度集成 Q-learning 用于马尔科夫决策过程策略优化

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-02-08T00:00:00Z

该文介绍了一种使用分布式强化学习的风险敏感的运动训练方法,可以帮助机器人在危险环境中预防事故。

使用分布式强化学习学习风险感知的四足动物运动

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2023-09-25T00:00:00Z
  • <<
  • <
  • 1 (current)
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
友情链接: MOGE.AI 九胧科技 模力方舟 Gitee AI 菜鸟教程 Remio.AI DeekSeek连连 53AI 神龙海外代理IP IPIPGO全球代理IP 东波哥的博客 匡优考试在线考试系统 开源服务指南 蓝莺IM Solo 独立开发者社区 AI酷站导航 极客Fun 我爱水煮鱼 周报生成器 He3.app 简单简历 白鲸出海 T沙龙 职友集 TechParty 蟒周刊 Best AI Music Generator

小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码