小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI
论文周报 |微软MAI-Thinking探索纯RL自我进化,AIME准确率达97%;无需架构修改,VLM³凭纯文本坐标实现3D任务泛化...速览一周AI前沿论文

微软 AI 团队提出了「爬山机器」框架,并训练了参数达到 1T 的 MoE 模型 MAI-Thinking-1。该模型通过自适应熵控制的强化学习,在无第三方数据的情况下实现了长期稳定的性能增长,并在多个基准测试中取得领先水平。

论文周报 |微软MAI-Thinking探索纯RL自我进化,AIME准确率达97%;无需架构修改,VLM³凭纯文本坐标实现3D任务泛化...速览一周AI前沿论文

HyperAI超神经
HyperAI超神经 · 2026-06-08T09:19:04Z

微软在Build大会上推出了Frontier Tuning,这是一种通过强化学习使AI适应企业数据和流程的新方法。该系统在合规边界内运行,能够根据企业的独特输入生成调优模型和技能,显著提高了输出质量和执行一致性。

Frontier Tuning:教AI像您一样工作

Microsoft 365 Developer Blog
Microsoft 365 Developer Blog · 2026-06-02T18:00:27Z
机器人运控训练步入分钟级时代!清华AIR开源UniLab:3分钟训好人形,速度暴涨10倍,Mac上也能跑

清华大学智能产业研究院推出了全新的机器人强化学习训练架构UniLab,打破了传统依赖GPU的训练模式。UniLab通过将仿真解耦到CPU侧,实现了更高的训练效率,并已开源,未来将扩展为通用的机器人学习研究平台。

机器人运控训练步入分钟级时代!清华AIR开源UniLab:3分钟训好人形,速度暴涨10倍,Mac上也能跑

量子位
量子位 · 2026-06-02T03:57:21Z
论文汇总 | 大模型强化学习最新进展,微软/谷歌/斯坦福/人大/小红书等发布信用分配/复杂推理/智能体强化学习重磅成果

当前强化学习的发展旨在突破稀疏奖励与静态监督的限制,赋予模型自主学习与自我进化的能力。研究者们提出了ECHO、DelTA和GoLongRL等新方法,以提升智能体在复杂环境中的表现和决策能力。这些研究为构建具备强推理和自学习能力的下一代大模型提供了重要启示。

论文汇总 | 大模型强化学习最新进展,微软/谷歌/斯坦福/人大/小红书等发布信用分配/复杂推理/智能体强化学习重磅成果

HyperAI超神经
HyperAI超神经 · 2026-05-28T10:17:04Z
人工智能工厂:智能的新基础设施

NVIDIA推出Vera CPU,专为代理AI设计,具备快速核心和大带宽,性能显著提升,已在多家顶尖AI实验室投入使用,能够以更低成本实现高效推理。同时,NVIDIA与Ineffable合作,推动强化学习基础设施的发展。

人工智能工厂:智能的新基础设施

NVIDIA Blog
NVIDIA Blog · 2026-05-27T16:00:36Z
Cursor Composer 2.5发布:SpaceXAI算力+国产Kimi模型

Cursor发布的Composer 2.5模型通过扩大训练规模、改进强化学习和引入文本反馈,效率提升10倍,能够处理长达几十万个词的任务。与SpaceXAI合作提供强大算力,使模型更智能、顺从,用户反馈积极,显示出市场需求。

Cursor Composer 2.5发布:SpaceXAI算力+国产Kimi模型

极道
极道 · 2026-05-19T00:13:00Z
SFT别急着接RL!你的多模态大模型可能一直在“带伤训练”

PRISM团队的研究表明,监督微调(SFT)并未促进强化学习(RL),反而可能导致模型性能下降。研究提出了SFT、分布对齐和RL的三阶段流程,强调在多模态模型中,SFT引入的分布偏差需要单独处理。通过对抗博弈对齐分布,PRISM显著提升了模型在推理任务上的表现,修复了SFT的副作用。

SFT别急着接RL!你的多模态大模型可能一直在“带伤训练”

量子位
量子位 · 2026-05-17T03:42:11Z
NVIDIA与Ineffable Intelligence携手打造未来强化学习基础设施

NVIDIA与Ineffable Intelligence合作,开发支持大规模强化学习的基础设施,旨在推动AI通过经验学习和发现新知识。该合作将探索新一代硬件和软件,以促进AI在复杂环境中的应用。

NVIDIA与Ineffable Intelligence携手打造未来强化学习基础设施

NVIDIA Blog
NVIDIA Blog · 2026-05-13T13:00:57Z
具身大模型R1时刻:LIBERO终结者,99.9%背后的物理推理新范式

LaST-R1是一种新型机器人强化学习框架,通过隐空间中的物理推理优化机器人的思考和动作。该方法结合LAPO算法,使机器人在执行动作前进行推理,从而提高在复杂环境中的适应能力和成功率。实验结果显示,LaST-R1在仿真和实际任务中均表现优异,成功率显著提升,标志着机器人从“模仿”向“理解”迈进。

具身大模型R1时刻:LIBERO终结者,99.9%背后的物理推理新范式

量子位
量子位 · 2026-05-11T01:51:36Z
BalCapRL:一种基于强化学习的多模态大语言模型图像描述的平衡框架

本文介绍了一种名为BalCapRL的平衡强化学习框架,旨在优化多模态大语言模型的图像描述。该框架通过奖励解耦归一化和长度条件奖励掩蔽,显著提升了描述的实用性、覆盖率和语言质量,克服了现有方法在描述质量上的局限性,多个模型的性能均有显著提高。

BalCapRL:一种基于强化学习的多模态大语言模型图像描述的平衡框架

Apple Machine Learning Research
Apple Machine Learning Research · 2026-05-11T00:00:00Z
不更新参数就能强化学习!OpenAI翁家翌提出新范式:决策只需AI手搓一个.py 文件

启发式学习(HL)是一种新型强化学习方法,成功在Atari游戏中取得高分。HL通过代码编辑替代梯度更新,实现显式决策逻辑,克服了深度强化学习的灾难性遗忘和不可解释性问题,尤其在复杂控制场景中表现出强适应能力。未来,HL与神经网络的结合将推动在线学习与持续学习的发展。

不更新参数就能强化学习!OpenAI翁家翌提出新范式:决策只需AI手搓一个.py 文件

量子位
量子位 · 2026-05-09T08:07:08Z
VLA死了,遥操也死了!英伟达机器人一号位说的

在红杉AI Ascent 2026大会上,Jim Fan宣布VLA和遥操作已不再适用,未来将依赖世界动作模型(WAM)和人类传感器数据。新范式通过模拟物理世界状态和动作微调,结合强化学习,推动机器人技术进步。EgoScale和Dream Zero等新策略将提升机器人在各种任务中的灵活性和自主性,预示着机器人行业的重大变革。

VLA死了,遥操也死了!英伟达机器人一号位说的

量子位
量子位 · 2026-05-09T06:24:18Z
LWD——大规模部署中训练VLA的RL框架:结合“分布隐式价值学习”与“基于QAM的策略提取”,先离线RL预训练,后在线RL微调中跑通“部署-数据收集-训练”的持续进化循环

本文讨论了在真实世界中部署通用机器人策略的挑战,提出了一种名为“部署中学习”(LWD)的框架,通过车队规模的离线到在线强化学习(RL)实现策略的持续改进。该方法结合离线数据和在线交互,利用多样化的部署经验,优化策略以适应新任务和环境。作者提出的分布式隐式价值学习(DIVL)和带有伴随匹配的Q学习(QAM)技术,旨在提高策略的稳定性和泛化能力,实现高效的后训练。

LWD——大规模部署中训练VLA的RL框架:结合“分布隐式价值学习”与“基于QAM的策略提取”,先离线RL预训练,后在线RL微调中跑通“部署-数据收集-训练”的持续进化循环

结构之法 算法之道
结构之法 算法之道 · 2026-04-30T14:53:08Z
DSO:直接引导优化用于偏见缓解

本文提出了直接引导优化(DSO),通过强化学习调整模型激活,以减轻偏见并保持模型性能。研究表明,DSO在公平性与能力之间实现了最佳平衡,优于传统启发式方法。

DSO:直接引导优化用于偏见缓解

Apple Machine Learning Research
Apple Machine Learning Research · 2026-04-29T00:00:00Z
ARM——用于长时序操作的优势奖励建模:采用三态标注策略(前进/后退/停滞),实现对相对优势的估计(含SARM详解)

研究者提出了优势奖励建模(ARM)框架,以解决长时间跨度机器人任务中的稀疏奖励问题。ARM通过三态标注策略(前进、后退、停滞)降低人类标注负担,并自动生成进度标注。在毛巾折叠任务中,该方法实现了99.4%的成功率,显著提高了强化学习的效率和稳定性。

ARM——用于长时序操作的优势奖励建模:采用三态标注策略(前进/后退/停滞),实现对相对优势的估计(含SARM详解)

结构之法 算法之道
结构之法 算法之道 · 2026-04-28T16:09:26Z
HTD——基于触觉预测的人形行走-操作框架:融合视觉、本体感知、力反馈、触觉,同时预测动作、未来手部关节受力、由EMA目标编码器监督的未来触觉潜变量

本文探讨了人形机器人在“行走-操作”任务中的挑战,提出了一种集成式全身操控系统,结合强化学习、VR遥操作和触觉感知。研究者开发了具身触觉梦境的Transformer(HTD),通过多模态学习提升机器人对接触状态的理解和反应能力,简化了学习过程,旨在提高人形机器人的操作能力和灵活性。

HTD——基于触觉预测的人形行走-操作框架:融合视觉、本体感知、力反馈、触觉,同时预测动作、未来手部关节受力、由EMA目标编码器监督的未来触觉潜变量

结构之法 算法之道
结构之法 算法之道 · 2026-04-23T10:29:30Z
教AI模型说“我不确定”

麻省理工学院的研究人员开发了一种新训练方法“带校准奖励的强化学习”(RLCR),该方法提高了AI模型的信心估计准确性,减少了90%的校准误差,同时保持或提升了准确性。通过惩罚模型的自信错误回答,促使模型在回答问题时考虑不确定性,适用于医疗、金融等领域,提升了AI输出的可靠性。

教AI模型说“我不确定”

MIT News - Computer Science and Artificial Intelligence Laboratory (CSAIL)
MIT News - Computer Science and Artificial Intelligence Laboratory (CSAIL) · 2026-04-22T19:15:00Z
国产多模态Agent拿下医学分割SOTA!不用改模型、不加token

浙江大学和上海人工智能实验室提出的IBISAgent框架,将医学图像分割重新定义为多步视觉决策过程,克服了现有方法的局限。通过冷启动和强化学习,IBISAgent在多个基准测试中显著提升了分割性能,展示了自主多轮交互推理的优势,为智能医学图像分析奠定了基础。

国产多模态Agent拿下医学分割SOTA!不用改模型、不加token

量子位
量子位 · 2026-04-22T07:17:04Z

本文探讨了大模型对齐的流程,包括监督微调(SFT)、奖励模型(RM)和强化学习(RL)。对齐不仅提升了模型对指令的理解能力,还影响推理能力和回答质量。文章介绍了直接偏好优化(DPO)作为一种新方法,简化了训练流程,减少了模型数量,提高了效率。未来研究将关注可验证奖励和长上下文推理,以增强模型的推理能力和应用范围。

【大模型基础设施工程】09:RLHF 与对齐流水线

土法炼钢兴趣小组的博客
土法炼钢兴趣小组的博客 · 2026-04-22T00:00:00Z
教龙虾玩手机!打通GUI智能体训练-评测-部署全流程,训练、真机、评测一站解决

ClawGUI是一个开源框架,旨在解决GUI智能体的训练、评测和部署问题。它通过在线强化学习与真实设备交互,提升模型性能。ClawGUI-2B在MobileWorld基准上取得17.1 SR的成绩,显著超越基线,并支持自然语言控制手机,推动GUI智能体的实际应用。

教龙虾玩手机!打通GUI智能体训练-评测-部署全流程,训练、真机、评测一站解决

量子位
量子位 · 2026-04-19T04:25:19Z
  • <<
  • <
  • 1 (current)
  • 2
  • 3
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码