小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI

MoEngage收购了旧金山的AI基础设施公司Aampe,计划将其强化学习引擎整合到MoEngage中,以创建个性化营销的互动平台。Aampe的创始团队将加入MoEngage,继续服务现有客户,并利用MoEngage的资源提升支持能力。

MoEngage宣布收购AI基础设施公司Aampe

全球TMT-美通国际
全球TMT-美通国际 · 2026-06-25T09:49:29Z
Q-Guided Flow——RL中基于流策略的推理时梯度引导:不直接在噪声动作上求Q的梯度,也不对整条去噪链做BPTT,而是一步Euler积分且把Jacobian直接换成单位矩阵

本文讨论了QGF(Q引导流)方法在强化学习中的应用,解决了扩散和流策略训练不稳定性的问题。通过预训练参考策略和价值函数,QGF利用价值梯度引导生成高价值动作,避免复杂的反向传播,从而提升策略的稳定性和可扩展性。

Q-Guided Flow——RL中基于流策略的推理时梯度引导:不直接在噪声动作上求Q的梯度,也不对整条去噪链做BPTT,而是一步Euler积分且把Jacobian直接换成单位矩阵

结构之法 算法之道
结构之法 算法之道 · 2026-06-24T04:32:42Z
论文周报 |微软MAI-Thinking探索纯RL自我进化,AIME准确率达97%;无需架构修改,VLM³凭纯文本坐标实现3D任务泛化...速览一周AI前沿论文

微软 AI 团队提出了「爬山机器」框架,并训练了参数达到 1T 的 MoE 模型 MAI-Thinking-1。该模型通过自适应熵控制的强化学习,在无第三方数据的情况下实现了长期稳定的性能增长,并在多个基准测试中取得领先水平。

论文周报 |微软MAI-Thinking探索纯RL自我进化,AIME准确率达97%;无需架构修改,VLM³凭纯文本坐标实现3D任务泛化...速览一周AI前沿论文

HyperAI超神经
HyperAI超神经 · 2026-06-08T09:19:04Z

微软在Build大会上推出了Frontier Tuning,这是一种通过强化学习使AI适应企业数据和流程的新方法。该系统在合规边界内运行,能够根据企业的独特输入生成调优模型和技能,显著提高了输出质量和执行一致性。

Frontier Tuning:教AI像您一样工作

Microsoft 365 Developer Blog
Microsoft 365 Developer Blog · 2026-06-02T18:00:27Z
机器人运控训练步入分钟级时代!清华AIR开源UniLab:3分钟训好人形,速度暴涨10倍,Mac上也能跑

清华大学智能产业研究院推出了全新的机器人强化学习训练架构UniLab,打破了传统依赖GPU的训练模式。UniLab通过将仿真解耦到CPU侧,实现了更高的训练效率,并已开源,未来将扩展为通用的机器人学习研究平台。

机器人运控训练步入分钟级时代!清华AIR开源UniLab:3分钟训好人形,速度暴涨10倍,Mac上也能跑

量子位
量子位 · 2026-06-02T03:57:21Z

REINFORCE方法通过回报加权优化不可微奖励,但在语言模型中方差过高。Actor-Critic方法将策略与价值函数分开训练,利用广义优势估计(GAE)在Monte-Carlo回报与时间差分(TD)引导之间平衡偏差和方差。Critic帮助构造优势估计,降低策略更新的方差。GAE通过加权多步TD残差,结合折扣因子B3和BB控制未来奖励的影响和优势估计的稳定性。

【强化学习与大模型后训练】04|Actor-Critic 与优势函数、GAE

土法炼钢兴趣小组的博客
土法炼钢兴趣小组的博客 · 2026-05-29T00:00:00Z

后训练是一个复杂的数据流水线,包含多个阶段,如SFT、奖励模型和策略优化。每个阶段旨在将预训练模型转变为更符合人类指令和偏好的模型。SFT主要调整回答格式,奖励模型提供训练信号,策略优化提升生成候选的能力。评测确保模型的安全性和准确性,整体流程强调数据回流和持续优化,以提升模型性能和可靠性。

【强化学习与大模型后训练】06|后训练全景:SFT → RM → RLHF → 评测

土法炼钢兴趣小组的博客
土法炼钢兴趣小组的博客 · 2026-05-29T00:00:00Z

本文讨论了后训练中的强化学习,重点介绍马尔可夫决策过程(MDP)、轨迹、回报、策略、价值函数和优势函数。强调了在语言模型生成中,奖励通常在序列末尾出现,导致信用分配和稀疏奖励问题。通过定义和贝尔曼期望方程,探讨了将语言生成视为MDP及其策略优化的挑战。

【强化学习与大模型后训练】02|MDP、回报与贝尔曼方程

土法炼钢兴趣小组的博客
土法炼钢兴趣小组的博客 · 2026-05-29T00:00:00Z

后训练是调整预训练模型以实现特定目标的方法,包括预训练、监督微调、奖励建模、策略优化和评测。风格对齐关注表达方式,能力激发关注任务成功率。RLHF通过人类偏好优化助手行为,DPO简化为离线分类损失,RLVR通过可验证奖励提升推理能力。

【强化学习与大模型后训练】01|系列总览:从 RL 到 LLM 后训练的地图

土法炼钢兴趣小组的博客
土法炼钢兴趣小组的博客 · 2026-05-29T00:00:00Z

PPO(近端策略优化)通过裁剪目标和重要性采样比率解决策略梯度的信任域问题。文章探讨了PPO的实现细节,包括优势归一化、价值裁剪和KL惩罚,强调在多轮minibatch更新中保持策略稳定的重要性。训练日志分析有助于识别正常探索与策略失效的信号,并讨论了PPO在RLHF(人类反馈强化学习)中的应用,指出奖励模型和参考策略的影响。

【强化学习与大模型后训练】05|PPO 深度解剖:裁剪目标、KL 约束与实现陷阱

土法炼钢兴趣小组的博客
土法炼钢兴趣小组的博客 · 2026-05-29T00:00:00Z

本文讨论了策略梯度方法在语言模型训练中的应用,重点介绍了REINFORCE算法。通过log-derivative技巧,策略梯度能够优化期望回报,而无需对不可微奖励求导。文章还分析了高方差问题及其在长序列和稀疏奖励中的影响,并介绍了RLOO等现代改进方法,以降低方差并提高训练稳定性。

【强化学习与大模型后训练】03|策略梯度与 REINFORCE

土法炼钢兴趣小组的博客
土法炼钢兴趣小组的博客 · 2026-05-29T00:00:00Z

这篇文章讨论了监督微调(SFT)在语言模型训练中的重要性,强调数据质量、模板设计和损失函数的影响。SFT通过指令与回答对训练模型,确保模型能够有效生成助手回答。此外,SFT是后续强化学习(RLHF)的基础,强调样本去重、数据来源和模板一致性的重要性,以避免模型学习错误的行为模式。

【强化学习与大模型后训练】07|监督微调(SFT):指令数据、模板与训练细节

土法炼钢兴趣小组的博客
土法炼钢兴趣小组的博客 · 2026-05-29T00:00:00Z
论文汇总 | 大模型强化学习最新进展,微软/谷歌/斯坦福/人大/小红书等发布信用分配/复杂推理/智能体强化学习重磅成果

当前强化学习的发展旨在突破稀疏奖励与静态监督的限制,赋予模型自主学习与自我进化的能力。研究者们提出了ECHO、DelTA和GoLongRL等新方法,以提升智能体在复杂环境中的表现和决策能力。这些研究为构建具备强推理和自学习能力的下一代大模型提供了重要启示。

论文汇总 | 大模型强化学习最新进展,微软/谷歌/斯坦福/人大/小红书等发布信用分配/复杂推理/智能体强化学习重磅成果

HyperAI超神经
HyperAI超神经 · 2026-05-28T10:17:04Z
人工智能工厂:智能的新基础设施

NVIDIA推出Vera CPU,专为代理AI设计,具备快速核心和大带宽,性能显著提升,已在多家顶尖AI实验室投入使用,能够以更低成本实现高效推理。同时,NVIDIA与Ineffable合作,推动强化学习基础设施的发展。

人工智能工厂:智能的新基础设施

NVIDIA Blog
NVIDIA Blog · 2026-05-27T16:00:36Z
Cursor Composer 2.5发布:SpaceXAI算力+国产Kimi模型

Cursor发布的Composer 2.5模型通过扩大训练规模、改进强化学习和引入文本反馈,效率提升10倍,能够处理长达几十万个词的任务。与SpaceXAI合作提供强大算力,使模型更智能、顺从,用户反馈积极,显示出市场需求。

Cursor Composer 2.5发布:SpaceXAI算力+国产Kimi模型

极道
极道 · 2026-05-19T00:13:00Z
SFT别急着接RL!你的多模态大模型可能一直在“带伤训练”

PRISM团队的研究表明,监督微调(SFT)并未促进强化学习(RL),反而可能导致模型性能下降。研究提出了SFT、分布对齐和RL的三阶段流程,强调在多模态模型中,SFT引入的分布偏差需要单独处理。通过对抗博弈对齐分布,PRISM显著提升了模型在推理任务上的表现,修复了SFT的副作用。

SFT别急着接RL!你的多模态大模型可能一直在“带伤训练”

量子位
量子位 · 2026-05-17T03:42:11Z
NVIDIA与Ineffable Intelligence携手打造未来强化学习基础设施

NVIDIA与Ineffable Intelligence合作,开发支持大规模强化学习的基础设施,旨在推动AI通过经验学习和发现新知识。该合作将探索新一代硬件和软件,以促进AI在复杂环境中的应用。

NVIDIA与Ineffable Intelligence携手打造未来强化学习基础设施

NVIDIA Blog
NVIDIA Blog · 2026-05-13T13:00:57Z
具身大模型R1时刻:LIBERO终结者,99.9%背后的物理推理新范式

LaST-R1是一种新型机器人强化学习框架,通过隐空间中的物理推理优化机器人的思考和动作。该方法结合LAPO算法,使机器人在执行动作前进行推理,从而提高在复杂环境中的适应能力和成功率。实验结果显示,LaST-R1在仿真和实际任务中均表现优异,成功率显著提升,标志着机器人从“模仿”向“理解”迈进。

具身大模型R1时刻:LIBERO终结者,99.9%背后的物理推理新范式

量子位
量子位 · 2026-05-11T01:51:36Z
BalCapRL:一种基于强化学习的多模态大语言模型图像描述的平衡框架

本文介绍了一种名为BalCapRL的平衡强化学习框架,旨在优化多模态大语言模型的图像描述。该框架通过奖励解耦归一化和长度条件奖励掩蔽,显著提升了描述的实用性、覆盖率和语言质量,克服了现有方法在描述质量上的局限性,多个模型的性能均有显著提高。

BalCapRL:一种基于强化学习的多模态大语言模型图像描述的平衡框架

Apple Machine Learning Research
Apple Machine Learning Research · 2026-05-11T00:00:00Z
不更新参数就能强化学习!OpenAI翁家翌提出新范式:决策只需AI手搓一个.py 文件

启发式学习(HL)是一种新型强化学习方法,成功在Atari游戏中取得高分。HL通过代码编辑替代梯度更新,实现显式决策逻辑,克服了深度强化学习的灾难性遗忘和不可解释性问题,尤其在复杂控制场景中表现出强适应能力。未来,HL与神经网络的结合将推动在线学习与持续学习的发展。

不更新参数就能强化学习!OpenAI翁家翌提出新范式:决策只需AI手搓一个.py 文件

量子位
量子位 · 2026-05-09T08:07:08Z
  • <<
  • <
  • 1 (current)
  • 2
  • 3
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
友情链接: MOGE.AI 九胧科技 模力方舟 Gitee AI 菜鸟教程 Remio.AI DeekSeek连连 53AI 神龙海外代理IP IPIPGO全球代理IP 东波哥的博客 匡优考试在线考试系统 开源服务指南 蓝莺IM Solo 独立开发者社区 AI酷站导航 极客Fun 我爱水煮鱼 周报生成器 He3.app 简单简历 白鲸出海 T沙龙 职友集 TechParty 蟒周刊 Best AI Music Generator

小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码