小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI

全球首个分布式强化学习模型INTELLECT-2发布,利用闲置算力进行训练,显著降低成本,性能接近DeepSeek-R1。该模型去中心化,任何人可参与训练,可能改变大公司对算力的垄断。团队已获得Karpathy等投资,未来将扩展去中心化训练。

全球闲置算力训个模型,性能媲美R1,老黄天塌了!Karpathy曾投资它

量子位
量子位 · 2025-05-13T05:52:30Z

本文提出了一种新型分布式强化学习架构,利用归一化流模型返回分布,显著提升了参数效率,并在ATARI-5测试中超越了传统方法。

面向无限制和几何感知的分布式强化学习的流模型

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-05-07T00:00:00Z
DeepSeek关键RL算法GRPO,有人从头跑通了,贡献完整代码

GRPO算法通过组内样本比较计算策略梯度,降低训练不稳定性并提高效率。Andriy Burkov发布了基于Qwen2.5-1.5B-Instruct模型的GRPO实现教程,涵盖数据准备、评估和奖励函数,最终实现模型微调,显著提升准确率。

DeepSeek关键RL算法GRPO,有人从头跑通了,贡献完整代码

机器之心
机器之心 · 2025-03-02T06:16:41Z

本研究提出了一种新颖的逆强化学习方法,解决了固定奖励分配和隐式奖励正则化的灵活性问题。通过引入平方时间差正则化器和自适应目标动态调整,我们的方法在模仿学习中优化了奖励函数,并结合分布式强化学习,在MuJoCo任务上取得了优异的实验结果。

RIZE:通过分布式强化学习的正则化模仿学习

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-02-27T00:00:00Z

该论文研究了一种分布式强化学习方法,用于多智能体马尔可夫决策过程,实现网络目标。通过稀疏通信网络上的局部处理和信息交流,实现了代理协作。该分布式方案在几乎确定的情况下,渐进性地实现了各个网络层面上的期望值函数和最优静止控制策略。

连续控制增强学习:分布分布式 DrQ 算法

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-04-16T00:00:00Z

该论文研究了一种分布式强化学习方法,用于实现多智能体马尔可夫决策过程中的网络目标。通过稀疏通信网络上的局部处理和信息交流,实现了代理协作。该分布式方案在几乎确定的情况下,逐渐实现了各个网络层面上的期望值函数和最优静止控制策略。

多时间尺度集成 Q-learning 用于马尔科夫决策过程策略优化

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-02-08T00:00:00Z

该文介绍了一种使用分布式强化学习的风险敏感的运动训练方法,可以帮助机器人在危险环境中预防事故。

使用分布式强化学习学习风险感知的四足动物运动

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2023-09-25T00:00:00Z
  • <<
  • <
  • 1 (current)
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
友情链接: MOGE.AI 九胧科技 模力方舟 Gitee AI 菜鸟教程 Remio.AI DeekSeek连连 53AI 神龙海外代理IP IPIPGO全球代理IP 东波哥的博客 匡优考试在线考试系统 开源服务指南 蓝莺IM Solo 独立开发者社区 AI酷站导航 极客Fun 我爱水煮鱼 周报生成器 He3.app 简单简历 白鲸出海 T沙龙 职友集 TechParty 蟒周刊 Best AI Music Generator

小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码