小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI

本报告探讨OpenClaw体系下Agent的强化学习训练方法,重点分析RFT与GRPO的训练流程,旨在降低强化学习训练门槛,实现训练自动化,并提升Agent的任务性能。

【Triton 教程】triton_language.erf

HyperAI超神经
HyperAI超神经 · 2026-03-24T06:36:07Z

本报告探讨OpenClaw体系中Agent的强化学习训练方法,重点分析RFT与GRPO的训练流程,旨在降低强化学习训练的门槛,实现自然语言驱动的训练自动化。

【Triton 教程】triton_language.cdiv

HyperAI超神经
HyperAI超神经 · 2026-02-09T03:14:16Z

本报告探讨OpenClaw体系中Agent的强化学习训练方法,重点分析RFT与GRPO的训练流程,旨在降低强化学习训练的门槛,实现自然语言驱动的自动化训练。

最高可得 $200!HyperAI 内测招募正式开启!

HyperAI超神经
HyperAI超神经 · 2026-01-15T08:40:50Z

本报告探讨OpenClaw体系中Agent的强化学习训练方法,重点分析RFT与GRPO的训练流程,旨在降低强化学习训练的门槛,实现自然语言驱动的训练自动化。

【Triton 教程】triton_language.view

HyperAI超神经
HyperAI超神经 · 2025-12-17T08:46:28Z

本文探讨了前置提示工程(pPE)在强化微调中的应用,结果显示pPE训练的模型性能优于iPE,尤其是null-example pPE方法表现最佳,为RFT研究提供了新方向。

强化微调中的前置提示工程

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-05-20T00:00:00Z

RFT强化微调结合强化学习与传统微调,能在特定领域显著提升大语言模型表现。华为云ModelArts Studio支持该技术,优化医疗模型,实验显示准确率提升超过10%。此方法降低数据需求,适应性强,适合数据稀缺行业。

医疗场景实战:百条数据 RFT 微调盘古大模型,精度大幅提升

华为云官方博客
华为云官方博客 · 2025-03-26T08:00:08Z

本研究强调区分推理标记与模式化标记的重要性,采用Shuffle-Aware Discriminator (SHAD)和新微调方法(RFT),显著提升大型语言模型的性能。

Distinguishing Between Inference Tokens and Pattern Tokens for Language Model Fine-Tuning

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-12-19T00:00:00Z
  • <<
  • <
  • 1 (current)
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码