小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
沉浸式翻译 immersive translate
Dify.AI

潞晨云推出国内首个兼容Tinker范式的Serverless微调平台,简化强化学习流程,降低成本。算法工程师可独立完成训练,提高效率,支持按Token计费,适用于科研、创业和工业应用。

8块钱跑通一次强化学习全流程,潞晨云重塑微调赛道:1名算法工程师=1支Infra团队

量子位
量子位 · 2026-01-07T07:16:23Z

全球强化学习+VLA范式,PI*0.6背后都有这家中国公司技术伏笔

机器之心
机器之心 · 2025-12-12T03:50:13Z
GRACE:可解释的逆强化学习语言模型框架

该论文在NeurIPS 2022的“人机协作学习研讨会”上被接受。偏好强化学习算法通过人类反馈提炼奖励函数,但仍需大量标签,实用性不足。本文展示了环境编码的有效性。

GRACE:可解释的逆强化学习语言模型框架

Apple Machine Learning Research
Apple Machine Learning Research · 2025-12-11T00:00:00Z
集成强化学习的自主代理RAG用于软件测试用例编写

本文提出了一种结合强化学习与自主代理的框架,以持续优化软件测试用例的自动生成。该框架通过AI代理学习质量工程反馈,改进测试生成策略。实验结果显示,在苹果企业项目中,测试生成准确率提高了2.4%,缺陷检测率提升了10.8%。

集成强化学习的自主代理RAG用于软件测试用例编写

Apple Machine Learning Research
Apple Machine Learning Research · 2025-12-09T00:00:00Z
SkyRL - 一个模块化的全栈强化学习(RL)库,专为大语言模型设计

SkyRL是一个专注于大语言模型训练与评估的模块化强化学习库,提供环境构建、训练和部署功能,旨在实现可重复的研究与工程。其主要特点包括模块化组件、高性能训练管道和丰富的环境套件,适用于多轮对话任务和算法评估。

SkyRL - 一个模块化的全栈强化学习(RL)库,专为大语言模型设计

云原生
云原生 · 2025-11-30T12:03:09Z
NeMo RL - NeMo RL是一个可扩展的大语言模型后训练强化学习库,适用于大型...

NVIDIA NeMo RL是一个可扩展的后训练强化学习工具包,支持多种训练后端,提供模块化组件,适用于大语言模型和多模态模型的高效训练与评估。其主要功能包括后训练支持、多后端兼容性和可扩展架构,适合强化微调、大规模实验和研究教育。

NeMo RL - NeMo RL是一个可扩展的大语言模型后训练强化学习库,适用于大型...

云原生
云原生 · 2025-11-30T12:03:06Z

Cursor发布了首个编程大模型Composer,速度达每秒250个tokens,效率提升400%。Cursor 2.0新版本引入原生浏览器工具和语音生成代码功能,支持多Agent协作。Composer通过强化学习训练,能在真实环境中执行编程任务,但模型来源尚不明确。

Cursor发布首个编程大模型!代码生成250tokens/秒,强化学习+MoE架构

量子位
量子位 · 2025-10-30T01:30:40Z
通过自适应揭示推理依据的强化学习

我们提出通过部分专家示范进行强化学习(RL)是一种有效的复杂序列生成框架。引入自适应回溯(AdaBack)动态调整监督长度,帮助模型逐步学习推理链。实验表明,该方法在长序列任务中优于传统的监督微调(SFT)和RL,能够解决以往难以处理的问题。

通过自适应揭示推理依据的强化学习

Apple Machine Learning Research
Apple Machine Learning Research · 2025-10-29T00:00:00Z
告别Retokenization Drift:通过OpenAI兼容API返回Token ID在代理强化学习中的重要性

本文介绍了vLLM的OpenAI兼容API新特性,允许返回精确的token ID,解决了训练与推理之间的Retokenization Drift问题。通过设置"return_token_ids": true,用户可以获取输入和生成响应的token ID,从而提高代理强化学习的稳定性。Agent Lightning框架与此特性结合,简化了数据收集和优化过程,提升了系统的灵活性和可扩展性。

告别Retokenization Drift:通过OpenAI兼容API返回Token ID在代理强化学习中的重要性

vLLM Blog
vLLM Blog · 2025-10-22T00:00:00Z
火山引擎多媒体实验室联合南开大学推出TempSamp-R1强化学习新框架,视频时序理解大模型SOTA!

视频时序定位是视频理解的关键任务,旨在根据自然语言查询精确定位视频片段。火山引擎与南开大学联合研发的TempSamp-R1框架,通过创新的混合策略采样、非线性优势塑造和混合CoT训练,显著提升了视频时序定位的效率和精度,已在多个数据集上刷新记录,推动智能剪辑技术的发展。

火山引擎多媒体实验室联合南开大学推出TempSamp-R1强化学习新框架,视频时序理解大模型SOTA!

实时互动网
实时互动网 · 2025-10-21T09:48:06Z
如何在JavaScript中利用强化学习构建自适应井字棋AI

本文介绍如何利用Q学习算法构建井字棋AI,涵盖自适应难度、实时可视化和优化技术。内容包括Q学习核心概念、状态管理和经验回放,最终实现一个可在浏览器中运行的应用。

如何在JavaScript中利用强化学习构建自适应井字棋AI

freeCodeCamp.org
freeCodeCamp.org · 2025-10-07T20:49:27Z

蚂蚁与港大联合推出PromptCoT 2.0框架,专注于任务合成与强化学习。实验表明,该框架在数学代码推理任务上达成新SOTA,显著提升模型性能。PromptCoT 2.0通过期望最大化优化生成更具挑战性的问题,并开源4.77M合成数据,推动大模型推理能力的提升。未来将探索环境合成与多模态任务。

全新合成框架SOTA:强化学习当引擎,任务合成当燃料,蚂蚁港大联合出品

量子位
量子位 · 2025-10-01T10:43:30Z

9.22-9.26 AI 论文推荐

AI 论文周报丨视觉语言模型应用/不稳定奇点族新发现/强化学习……一文了解多领域创新趋势与前沿动态

HyperAI超神经
HyperAI超神经 · 2025-09-28T04:27:14Z
从零开始编码大型语言模型 – 理论到强化学习与人类反馈

这篇文章介绍了一个免费的YouTube课程,教你如何从零开始使用PyTorch构建大型语言模型(LLM)。课程由AI专家Vivek Kalyanarangan创建,内容包括变换器架构、小型LLM训练、现代增强、扩展技术、专家混合层和奖励建模,旨在深入理解LLM的原理与应用。

从零开始编码大型语言模型 – 理论到强化学习与人类反馈

freeCodeCamp.org
freeCodeCamp.org · 2025-09-23T12:36:57Z

上海交大与字节跳动合作推出RhymeRL框架,训练速度提升2.6倍,且保持精度。该框架通过利用历史数据和新技术,解决了Rollout阶段的低效问题,显著加速AI模型训练。

攻克强化学习「最慢一环」!交大字节联手,RL训练速度飙升2.6倍

量子位
量子位 · 2025-09-13T08:45:23Z

从「会说」迈向「会做」,LLM下半场:Agentic强化学习范式综述

机器之心
机器之心 · 2025-09-08T11:25:16Z

首个为具身智能而生的大规模强化学习框架RLinf!清华、北京中关村学院、无问芯穹等重磅开源

机器之心
机器之心 · 2025-09-01T03:41:43Z

打磨7年,李航新书《机器学习方法(第2版)》发布,有了强化学习,赠书20本

机器之心
机器之心 · 2025-08-27T03:42:19Z

Meta的强化学习专家Rishabh Agarwal即将离职,曾在谷歌和Meta参与多个重要项目。他的离职引发网友关注,猜测可能与内部矛盾和薪酬问题有关。

Meta万引强化学习大佬跑路!用小扎原话作为离别寄语,扎心了

量子位
量子位 · 2025-08-26T05:16:34Z

仅靠5000+样本,全新强化学习范式让30B轻松击败671B的DeepSeek V3

机器之心
机器之心 · 2025-08-24T11:59:50Z
  • <<
  • <
  • 1 (current)
  • 2
  • 3
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
友情链接: MOGE.AI 九胧科技 模力方舟 Gitee AI 菜鸟教程 Remio.AI DeekSeek连连 53AI 神龙海外代理IP IPIPGO全球代理IP 东波哥的博客 匡优考试在线考试系统 开源服务指南 蓝莺IM Solo 独立开发者社区 AI酷站导航 极客Fun 我爱水煮鱼 周报生成器 He3.app 简单简历 白鲸出海 T沙龙 职友集 TechParty 蟒周刊 Best AI Music Generator

小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码