小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
沉浸式翻译 immersive translate
Dify.AI
认识KARL:一个更快的企业知识代理,基于定制的强化学习

KARL模型通过强化学习显著降低了推理成本和延迟,同时提升了质量,适用于Databricks客户,帮助他们创建定制的RL模型,尤其在处理复杂问题时表现优异。

认识KARL:一个更快的企业知识代理,基于定制的强化学习

Databricks
Databricks · 2026-03-05T14:40:00Z

人形机器人的真机强化学习! ICLR 2026 通研院提出人形机器人预训练与真机微调新范式

机器之心
机器之心 · 2026-02-07T11:29:00Z

突破RNA设计瓶颈,上智院联合复旦、上交提出全球首个强化学习与潜扩散融合框架SOLD

机器之心
机器之心 · 2026-02-04T06:25:23Z
基于强化学习的极化码通用序列设计

为推进6G应用的极化码设计,我们开发了一种基于强化学习的通用序列设计框架,适应多种信道条件和解码策略。该方法支持最长2048的码长,性能优于5G NR序列,在N=2048时比基线提高0.2 dB,关键在于物理法则约束学习、前瞻评估限制和多配置优化。

基于强化学习的极化码通用序列设计

Apple Machine Learning Research
Apple Machine Learning Research · 2026-02-03T00:00:00Z

潞晨云推出国内首个兼容Tinker范式的Serverless微调平台,简化强化学习流程,降低成本。算法工程师可独立完成训练,提高效率,支持按Token计费,适用于科研、创业和工业应用。

8块钱跑通一次强化学习全流程,潞晨云重塑微调赛道:1名算法工程师=1支Infra团队

量子位
量子位 · 2026-01-07T07:16:23Z

全球强化学习+VLA范式,PI*0.6背后都有这家中国公司技术伏笔

机器之心
机器之心 · 2025-12-12T03:50:13Z
GRACE:可解释的逆强化学习语言模型框架

该论文在NeurIPS 2022的“人机协作学习研讨会”上被接受。偏好强化学习算法通过人类反馈提炼奖励函数,但仍需大量标签,实用性不足。本文展示了环境编码的有效性。

GRACE:可解释的逆强化学习语言模型框架

Apple Machine Learning Research
Apple Machine Learning Research · 2025-12-11T00:00:00Z
集成强化学习的自主代理RAG用于软件测试用例编写

本文提出了一种结合强化学习与自主代理的框架,以持续优化软件测试用例的自动生成。该框架通过AI代理学习质量工程反馈,改进测试生成策略。实验结果显示,在苹果企业项目中,测试生成准确率提高了2.4%,缺陷检测率提升了10.8%。

集成强化学习的自主代理RAG用于软件测试用例编写

Apple Machine Learning Research
Apple Machine Learning Research · 2025-12-09T00:00:00Z
SkyRL - 一个模块化的全栈强化学习(RL)库,专为大语言模型设计

SkyRL是一个专注于大语言模型训练与评估的模块化强化学习库,提供环境构建、训练和部署功能,旨在实现可重复的研究与工程。其主要特点包括模块化组件、高性能训练管道和丰富的环境套件,适用于多轮对话任务和算法评估。

SkyRL - 一个模块化的全栈强化学习(RL)库,专为大语言模型设计

云原生
云原生 · 2025-11-30T12:03:09Z
NeMo RL - NeMo RL是一个可扩展的大语言模型后训练强化学习库,适用于大型...

NVIDIA NeMo RL是一个可扩展的后训练强化学习工具包,支持多种训练后端,提供模块化组件,适用于大语言模型和多模态模型的高效训练与评估。其主要功能包括后训练支持、多后端兼容性和可扩展架构,适合强化微调、大规模实验和研究教育。

NeMo RL - NeMo RL是一个可扩展的大语言模型后训练强化学习库,适用于大型...

云原生
云原生 · 2025-11-30T12:03:06Z

Cursor发布了首个编程大模型Composer,速度达每秒250个tokens,效率提升400%。Cursor 2.0新版本引入原生浏览器工具和语音生成代码功能,支持多Agent协作。Composer通过强化学习训练,能在真实环境中执行编程任务,但模型来源尚不明确。

Cursor发布首个编程大模型!代码生成250tokens/秒,强化学习+MoE架构

量子位
量子位 · 2025-10-30T01:30:40Z
通过自适应揭示推理依据的强化学习

我们提出通过部分专家示范进行强化学习(RL)是一种有效的复杂序列生成框架。引入自适应回溯(AdaBack)动态调整监督长度,帮助模型逐步学习推理链。实验表明,该方法在长序列任务中优于传统的监督微调(SFT)和RL,能够解决以往难以处理的问题。

通过自适应揭示推理依据的强化学习

Apple Machine Learning Research
Apple Machine Learning Research · 2025-10-29T00:00:00Z
告别Retokenization Drift:通过OpenAI兼容API返回Token ID在代理强化学习中的重要性

本文介绍了vLLM的OpenAI兼容API新特性,允许返回精确的token ID,解决了训练与推理之间的Retokenization Drift问题。通过设置"return_token_ids": true,用户可以获取输入和生成响应的token ID,从而提高代理强化学习的稳定性。Agent Lightning框架与此特性结合,简化了数据收集和优化过程,提升了系统的灵活性和可扩展性。

告别Retokenization Drift:通过OpenAI兼容API返回Token ID在代理强化学习中的重要性

vLLM Blog
vLLM Blog · 2025-10-22T00:00:00Z
火山引擎多媒体实验室联合南开大学推出TempSamp-R1强化学习新框架,视频时序理解大模型SOTA!

视频时序定位是视频理解的关键任务,旨在根据自然语言查询精确定位视频片段。火山引擎与南开大学联合研发的TempSamp-R1框架,通过创新的混合策略采样、非线性优势塑造和混合CoT训练,显著提升了视频时序定位的效率和精度,已在多个数据集上刷新记录,推动智能剪辑技术的发展。

火山引擎多媒体实验室联合南开大学推出TempSamp-R1强化学习新框架,视频时序理解大模型SOTA!

实时互动网
实时互动网 · 2025-10-21T09:48:06Z
如何在JavaScript中利用强化学习构建自适应井字棋AI

本文介绍如何利用Q学习算法构建井字棋AI,涵盖自适应难度、实时可视化和优化技术。内容包括Q学习核心概念、状态管理和经验回放,最终实现一个可在浏览器中运行的应用。

如何在JavaScript中利用强化学习构建自适应井字棋AI

freeCodeCamp.org
freeCodeCamp.org · 2025-10-07T20:49:27Z

蚂蚁与港大联合推出PromptCoT 2.0框架,专注于任务合成与强化学习。实验表明,该框架在数学代码推理任务上达成新SOTA,显著提升模型性能。PromptCoT 2.0通过期望最大化优化生成更具挑战性的问题,并开源4.77M合成数据,推动大模型推理能力的提升。未来将探索环境合成与多模态任务。

全新合成框架SOTA:强化学习当引擎,任务合成当燃料,蚂蚁港大联合出品

量子位
量子位 · 2025-10-01T10:43:30Z

9.22-9.26 AI 论文推荐

AI 论文周报丨视觉语言模型应用/不稳定奇点族新发现/强化学习……一文了解多领域创新趋势与前沿动态

HyperAI超神经
HyperAI超神经 · 2025-09-28T04:27:14Z
从零开始编码大型语言模型 – 理论到强化学习与人类反馈

这篇文章介绍了一个免费的YouTube课程,教你如何从零开始使用PyTorch构建大型语言模型(LLM)。课程由AI专家Vivek Kalyanarangan创建,内容包括变换器架构、小型LLM训练、现代增强、扩展技术、专家混合层和奖励建模,旨在深入理解LLM的原理与应用。

从零开始编码大型语言模型 – 理论到强化学习与人类反馈

freeCodeCamp.org
freeCodeCamp.org · 2025-09-23T12:36:57Z

上海交大与字节跳动合作推出RhymeRL框架,训练速度提升2.6倍,且保持精度。该框架通过利用历史数据和新技术,解决了Rollout阶段的低效问题,显著加速AI模型训练。

攻克强化学习「最慢一环」!交大字节联手,RL训练速度飙升2.6倍

量子位
量子位 · 2025-09-13T08:45:23Z

从「会说」迈向「会做」,LLM下半场:Agentic强化学习范式综述

机器之心
机器之心 · 2025-09-08T11:25:16Z
  • <<
  • <
  • 1 (current)
  • 2
  • 3
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码