小红花·文摘

标签

强化学习

相关的文章：

本列表汇集了最新的强化学习研究与应用，涵盖从基础算法到前沿技术的多样化内容，助力您深入了解这一领域的创新动态。

全球强化学习+VLA范式，PI*0.6背后都有这家中国公司技术伏笔

机器之心 · 2025-12-12T03:50:13Z

GRACE：可解释的逆强化学习语言模型框架

Apple Machine Learning Research · 2025-12-11T00:00:00Z

集成强化学习的自主代理RAG用于软件测试用例编写

Apple Machine Learning Research · 2025-12-09T00:00:00Z

SkyRL - 一个模块化的全栈强化学习（RL）库，专为大语言模型设计

云原生 · 2025-11-30T12:03:09Z

NeMo RL - NeMo RL是一个可扩展的大语言模型后训练强化学习库，适用于大型...

云原生 · 2025-11-30T12:03:06Z

Cursor发布了首个编程大模型Composer，速度达每秒250个tokens，效率提升400%。Cursor 2.0新版本引入原生浏览器工具和语音生成代码功能，支持多Agent协作。Composer通过强化学习训练，能在真实环境中执行编程任务，但模型来源尚不明确。

Cursor发布首个编程大模型！代码生成250tokens/秒，强化学习+MoE架构

量子位 · 2025-10-30T01:30:40Z

通过自适应揭示推理依据的强化学习

Apple Machine Learning Research · 2025-10-29T00:00:00Z

告别Retokenization Drift：通过OpenAI兼容API返回Token ID在代理强化学习中的重要性

vLLM Blog · 2025-10-22T00:00:00Z

火山引擎多媒体实验室联合南开大学推出TempSamp-R1强化学习新框架，视频时序理解大模型SOTA！

实时互动网 · 2025-10-21T09:48:06Z

如何在JavaScript中利用强化学习构建自适应井字棋AI

freeCodeCamp.org · 2025-10-07T20:49:27Z

蚂蚁与港大联合推出PromptCoT 2.0框架，专注于任务合成与强化学习。实验表明，该框架在数学代码推理任务上达成新SOTA，显著提升模型性能。PromptCoT 2.0通过期望最大化优化生成更具挑战性的问题，并开源4.77M合成数据，推动大模型推理能力的提升。未来将探索环境合成与多模态任务。

全新合成框架SOTA：强化学习当引擎，任务合成当燃料，蚂蚁港大联合出品

量子位 · 2025-10-01T10:43:30Z

9.22-9.26 AI 论文推荐

AI 论文周报丨视觉语言模型应用/不稳定奇点族新发现/强化学习……一文了解多领域创新趋势与前沿动态

HyperAI超神经 · 2025-09-28T04:27:14Z

从零开始编码大型语言模型 – 理论到强化学习与人类反馈

freeCodeCamp.org · 2025-09-23T12:36:57Z

上海交大与字节跳动合作推出RhymeRL框架，训练速度提升2.6倍，且保持精度。该框架通过利用历史数据和新技术，解决了Rollout阶段的低效问题，显著加速AI模型训练。

攻克强化学习「最慢一环」！交大字节联手，RL训练速度飙升2.6倍

量子位 · 2025-09-13T08:45:23Z

从「会说」迈向「会做」，LLM下半场：Agentic强化学习范式综述

机器之心 · 2025-09-08T11:25:16Z

首个为具身智能而生的大规模强化学习框架RLinf！清华、北京中关村学院、无问芯穹等重磅开源

机器之心 · 2025-09-01T03:41:43Z

打磨7年，李航新书《机器学习方法（第2版）》发布，有了强化学习，赠书20本

机器之心 · 2025-08-27T03:42:19Z

Meta的强化学习专家Rishabh Agarwal即将离职，曾在谷歌和Meta参与多个重要项目。他的离职引发网友关注，猜测可能与内部矛盾和薪酬问题有关。

Meta万引强化学习大佬跑路！用小扎原话作为离别寄语，扎心了

量子位 · 2025-08-26T05:16:34Z

仅靠5000+样本，全新强化学习范式让30B轻松击败671B的DeepSeek V3

机器之心 · 2025-08-24T11:59:50Z

强化学习之父Richard Sutton最新演讲揭示OaK架构：通向超级智能的八步愿景

机器之心 · 2025-08-19T10:03:51Z