小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI
Cursor Composer 2.5发布:SpaceXAI算力+国产Kimi模型

Cursor发布的Composer 2.5模型通过扩大训练规模、改进强化学习和引入文本反馈,效率提升10倍,能够处理长达几十万个词的任务。与SpaceXAI合作提供强大算力,使模型更智能、顺从,用户反馈积极,显示出市场需求。

Cursor Composer 2.5发布:SpaceXAI算力+国产Kimi模型

极道
极道 · 2026-05-19T00:13:00Z
SFT别急着接RL!你的多模态大模型可能一直在“带伤训练”

PRISM团队的研究表明,监督微调(SFT)并未促进强化学习(RL),反而可能导致模型性能下降。研究提出了SFT、分布对齐和RL的三阶段流程,强调在多模态模型中,SFT引入的分布偏差需要单独处理。通过对抗博弈对齐分布,PRISM显著提升了模型在推理任务上的表现,修复了SFT的副作用。

SFT别急着接RL!你的多模态大模型可能一直在“带伤训练”

量子位
量子位 · 2026-05-17T03:42:11Z
NVIDIA与Ineffable Intelligence携手打造未来强化学习基础设施

NVIDIA与Ineffable Intelligence合作,开发支持大规模强化学习的基础设施,旨在推动AI通过经验学习和发现新知识。该合作将探索新一代硬件和软件,以促进AI在复杂环境中的应用。

NVIDIA与Ineffable Intelligence携手打造未来强化学习基础设施

NVIDIA Blog
NVIDIA Blog · 2026-05-13T13:00:57Z
具身大模型R1时刻:LIBERO终结者,99.9%背后的物理推理新范式

LaST-R1是一种新型机器人强化学习框架,通过隐空间中的物理推理优化机器人的思考和动作。该方法结合LAPO算法,使机器人在执行动作前进行推理,从而提高在复杂环境中的适应能力和成功率。实验结果显示,LaST-R1在仿真和实际任务中均表现优异,成功率显著提升,标志着机器人从“模仿”向“理解”迈进。

具身大模型R1时刻:LIBERO终结者,99.9%背后的物理推理新范式

量子位
量子位 · 2026-05-11T01:51:36Z
BalCapRL:一种基于强化学习的多模态大语言模型图像描述的平衡框架

本文介绍了一种名为BalCapRL的平衡强化学习框架,旨在优化多模态大语言模型的图像描述。该框架通过奖励解耦归一化和长度条件奖励掩蔽,显著提升了描述的实用性、覆盖率和语言质量,克服了现有方法在描述质量上的局限性,多个模型的性能均有显著提高。

BalCapRL:一种基于强化学习的多模态大语言模型图像描述的平衡框架

Apple Machine Learning Research
Apple Machine Learning Research · 2026-05-11T00:00:00Z
不更新参数就能强化学习!OpenAI翁家翌提出新范式:决策只需AI手搓一个.py 文件

启发式学习(HL)是一种新型强化学习方法,成功在Atari游戏中取得高分。HL通过代码编辑替代梯度更新,实现显式决策逻辑,克服了深度强化学习的灾难性遗忘和不可解释性问题,尤其在复杂控制场景中表现出强适应能力。未来,HL与神经网络的结合将推动在线学习与持续学习的发展。

不更新参数就能强化学习!OpenAI翁家翌提出新范式:决策只需AI手搓一个.py 文件

量子位
量子位 · 2026-05-09T08:07:08Z
VLA死了,遥操也死了!英伟达机器人一号位说的

在红杉AI Ascent 2026大会上,Jim Fan宣布VLA和遥操作已不再适用,未来将依赖世界动作模型(WAM)和人类传感器数据。新范式通过模拟物理世界状态和动作微调,结合强化学习,推动机器人技术进步。EgoScale和Dream Zero等新策略将提升机器人在各种任务中的灵活性和自主性,预示着机器人行业的重大变革。

VLA死了,遥操也死了!英伟达机器人一号位说的

量子位
量子位 · 2026-05-09T06:24:18Z
LWD——大规模部署中训练VLA的RL框架:结合“分布隐式价值学习”与“基于QAM的策略提取”,先离线RL预训练,后在线RL微调中跑通“部署-数据收集-训练”的持续进化循环

本文讨论了在真实世界中部署通用机器人策略的挑战,提出了一种名为“部署中学习”(LWD)的框架,通过车队规模的离线到在线强化学习(RL)实现策略的持续改进。该方法结合离线数据和在线交互,利用多样化的部署经验,优化策略以适应新任务和环境。作者提出的分布式隐式价值学习(DIVL)和带有伴随匹配的Q学习(QAM)技术,旨在提高策略的稳定性和泛化能力,实现高效的后训练。

LWD——大规模部署中训练VLA的RL框架:结合“分布隐式价值学习”与“基于QAM的策略提取”,先离线RL预训练,后在线RL微调中跑通“部署-数据收集-训练”的持续进化循环

结构之法 算法之道
结构之法 算法之道 · 2026-04-30T14:53:08Z
DSO:直接引导优化用于偏见缓解

本文提出了直接引导优化(DSO),通过强化学习调整模型激活,以减轻偏见并保持模型性能。研究表明,DSO在公平性与能力之间实现了最佳平衡,优于传统启发式方法。

DSO:直接引导优化用于偏见缓解

Apple Machine Learning Research
Apple Machine Learning Research · 2026-04-29T00:00:00Z
ARM——用于长时序操作的优势奖励建模:采用三态标注策略(前进/后退/停滞),实现对相对优势的估计(含SARM详解)

研究者提出了优势奖励建模(ARM)框架,以解决长时间跨度机器人任务中的稀疏奖励问题。ARM通过三态标注策略(前进、后退、停滞)降低人类标注负担,并自动生成进度标注。在毛巾折叠任务中,该方法实现了99.4%的成功率,显著提高了强化学习的效率和稳定性。

ARM——用于长时序操作的优势奖励建模:采用三态标注策略(前进/后退/停滞),实现对相对优势的估计(含SARM详解)

结构之法 算法之道
结构之法 算法之道 · 2026-04-28T16:09:26Z
HTD——基于触觉预测的人形行走-操作框架:融合视觉、本体感知、力反馈、触觉,同时预测动作、未来手部关节受力、由EMA目标编码器监督的未来触觉潜变量

本文探讨了人形机器人在“行走-操作”任务中的挑战,提出了一种集成式全身操控系统,结合强化学习、VR遥操作和触觉感知。研究者开发了具身触觉梦境的Transformer(HTD),通过多模态学习提升机器人对接触状态的理解和反应能力,简化了学习过程,旨在提高人形机器人的操作能力和灵活性。

HTD——基于触觉预测的人形行走-操作框架:融合视觉、本体感知、力反馈、触觉,同时预测动作、未来手部关节受力、由EMA目标编码器监督的未来触觉潜变量

结构之法 算法之道
结构之法 算法之道 · 2026-04-23T10:29:30Z
教AI模型说“我不确定”

麻省理工学院的研究人员开发了一种新训练方法“带校准奖励的强化学习”(RLCR),该方法提高了AI模型的信心估计准确性,减少了90%的校准误差,同时保持或提升了准确性。通过惩罚模型的自信错误回答,促使模型在回答问题时考虑不确定性,适用于医疗、金融等领域,提升了AI输出的可靠性。

教AI模型说“我不确定”

MIT News - Computer Science and Artificial Intelligence Laboratory (CSAIL)
MIT News - Computer Science and Artificial Intelligence Laboratory (CSAIL) · 2026-04-22T19:15:00Z
国产多模态Agent拿下医学分割SOTA!不用改模型、不加token

浙江大学和上海人工智能实验室提出的IBISAgent框架,将医学图像分割重新定义为多步视觉决策过程,克服了现有方法的局限。通过冷启动和强化学习,IBISAgent在多个基准测试中显著提升了分割性能,展示了自主多轮交互推理的优势,为智能医学图像分析奠定了基础。

国产多模态Agent拿下医学分割SOTA!不用改模型、不加token

量子位
量子位 · 2026-04-22T07:17:04Z

本文探讨了大模型对齐的流程,包括监督微调(SFT)、奖励模型(RM)和强化学习(RL)。对齐不仅提升了模型对指令的理解能力,还影响推理能力和回答质量。文章介绍了直接偏好优化(DPO)作为一种新方法,简化了训练流程,减少了模型数量,提高了效率。未来研究将关注可验证奖励和长上下文推理,以增强模型的推理能力和应用范围。

【大模型基础设施工程】09:RLHF 与对齐流水线

土法炼钢兴趣小组的博客
土法炼钢兴趣小组的博客 · 2026-04-22T00:00:00Z
教龙虾玩手机!打通GUI智能体训练-评测-部署全流程,训练、真机、评测一站解决

ClawGUI是一个开源框架,旨在解决GUI智能体的训练、评测和部署问题。它通过在线强化学习与真实设备交互,提升模型性能。ClawGUI-2B在MobileWorld基准上取得17.1 SR的成绩,显著超越基线,并支持自然语言控制手机,推动GUI智能体的实际应用。

教龙虾玩手机!打通GUI智能体训练-评测-部署全流程,训练、真机、评测一站解决

量子位
量子位 · 2026-04-19T04:25:19Z
刘壮陈丹琦新作:开源通用视觉推理RL框架,0思考数据刷新SOTA

刘壮和陈丹琦团队推出了开源视觉推理强化学习框架Vero,支持多种视觉任务,克服了单一任务训练的局限性。Vero通过600K高质量样本和任务路由奖励机制,在多项基准测试中超越现有模型,展示了广泛数据对视觉推理的促进作用。

刘壮陈丹琦新作:开源通用视觉推理RL框架,0思考数据刷新SOTA

量子位
量子位 · 2026-04-11T01:23:42Z
熵保持强化学习

本文探讨了强化学习中的熵保持问题,指出许多策略梯度算法在训练过程中自然降低熵,限制了探索能力。作者建议主动监控和控制熵,并提出了REPO和ADAPO等算法以调节熵,从而保持模型多样性,提高策略的性能和适应性。

熵保持强化学习

Apple Machine Learning Research
Apple Machine Learning Research · 2026-03-30T00:00:00Z
OpenClaw外挂MetaClaw深度解析:这只龙虾边干活边自我进化!

MetaClaw是一种智能体系统,通过规则注入和强化学习实现自我进化。它在真实环境中学习,记录互动并总结经验,以提升性能。系统分层处理规则,确保高效学习,避免旧数据干扰。MetaClaw能够在用户不知情的情况下持续进化,逐渐成为更可靠的助手,展现出巨大潜力。

OpenClaw外挂MetaClaw深度解析:这只龙虾边干活边自我进化!

极道
极道 · 2026-03-29T23:22:00Z

本报告探讨OpenClaw体系下Agent的强化学习训练方法,重点分析RFT与GRPO的训练流程,旨在降低强化学习训练门槛,实现训练自动化,并提升Agent的任务性能。

【Triton 教程】triton_language.erf

HyperAI超神经
HyperAI超神经 · 2026-03-24T06:36:07Z
Momenta不选VLA选世界模型,大众首发!曹旭东:传感器重要性最后

Momenta推出R7大模型,利用世界模型增强AI对物理世界的理解。CEO曹旭东表示,传统模仿学习无法超越人类,转向强化学习是关键。Momenta强调算法架构和数据的重要性,传感器排在第三位。

Momenta不选VLA选世界模型,大众首发!曹旭东:传感器重要性最后

量子位
量子位 · 2026-03-23T08:47:07Z
  • <<
  • <
  • 1 (current)
  • 2
  • 3
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
友情链接: MOGE.AI 九胧科技 模力方舟 Gitee AI 菜鸟教程 Remio.AI DeekSeek连连 53AI 神龙海外代理IP IPIPGO全球代理IP 东波哥的博客 匡优考试在线考试系统 开源服务指南 蓝莺IM Solo 独立开发者社区 AI酷站导航 极客Fun 我爱水煮鱼 周报生成器 He3.app 简单简历 白鲸出海 T沙龙 职友集 TechParty 蟒周刊 Best AI Music Generator

小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码