小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI

后训练是调整预训练模型以实现特定目标的方法,包括预训练、监督微调、奖励建模、策略优化和评测。风格对齐关注表达方式,能力激发关注任务成功率。RLHF通过人类偏好优化助手行为,DPO简化为离线分类损失,RLVR通过可验证奖励提升推理能力。

【强化学习与大模型后训练】01|系列总览:从 RL 到 LLM 后训练的地图

土法炼钢兴趣小组的博客
土法炼钢兴趣小组的博客 · 2026-05-29T00:00:00Z
mAceReason-Math:一个高质量的多语言数学问题数据集,支持强化学习与可验证奖励(RLVR)

mAceReason-Math是一个高质量的多语言数学问题数据集,支持强化学习与可验证奖励(RLVR)研究。该数据集包含来自AceReason-Math语料库的挑战性数学问题翻译,覆盖14种语言,每种语言超过10,000个样本,旨在提升多语言RLVR的研究和基准测试。

mAceReason-Math:一个高质量的多语言数学问题数据集,支持强化学习与可验证奖励(RLVR)

Apple Machine Learning Research
Apple Machine Learning Research · 2026-03-13T00:00:00Z
LightOnOCR-2-1B:基于 RLVR 训练实现高精度端到端 OCR;Google Streetview 国家街景图像:基于世界级地理映射技术的全景图像开源库

LightOn公司发布了LightOnOCR-2-1B模型,采用端到端视觉-语言架构,参数仅10亿,性能超过90亿参数模型,显著提升复杂文档处理效率,适用于多种应用场景。

LightOnOCR-2-1B:基于 RLVR 训练实现高精度端到端 OCR;Google Streetview 国家街景图像:基于世界级地理映射技术的全景图像开源库

HyperAI超神经
HyperAI超神经 · 2026-02-09T06:31:16Z
揭秘!RLVR/GRPO中那些长期被忽略的关键缺陷

AI Shortlist 是一个专注于人工智能的主题平台,提供最新的技术、应用和发展趋势,帮助用户了解AI的潜力与影响。

揭秘!RLVR/GRPO中那些长期被忽略的关键缺陷

机器之心
机器之心 · 2026-01-30T09:37:20Z
AI 大神 Karpathy 2025 年度总结刷屏:AI 既是天才也是智障,这 6 个转折最关键

OpenAI前联合创始人Karpathy总结了2025年大语言模型的发展,提出软件3.0时代的概念,强调AI的智能形态与人类不同,并在某些领域展现极端能力。他指出AI训练方法的变化,RLVR的引入使AI能够自我验证和进化。Karpathy认为未来AI将更深入地融入各行业,成为强大工具。

AI 大神 Karpathy 2025 年度总结刷屏:AI 既是天才也是智障,这 6 个转折最关键

爱范儿
爱范儿 · 2025-12-20T04:46:35Z
RLVR的力量:在Databricks上训练领先的SQL推理模型

在Databricks,我们通过可验证奖励的强化学习(RLVR)开发推理模型,解决客户问题并提升产品性能。在BIRD基准测试中,我们取得73.5%的新高,证明了RLVR的有效性和易用性,帮助用户更好地与数据互动。

RLVR的力量:在Databricks上训练领先的SQL推理模型

Databricks
Databricks · 2025-07-30T15:15:29Z

Claude 4的思考方式通过可验证奖励强化学习(RLVR)得到验证,未来将能够完成更复杂的任务。研究人员认为AI获得诺贝尔奖比普利策奖更容易,并强调反馈循环的重要性。同时,模型的自我意识和可解释性也在研究中,未来的智能体将能够独立完成复杂工作。

Claude 4如何思考?资深研究员回应:RLVR已在编程/数学得到验证

量子位
量子位 · 2025-05-24T06:38:50Z
RLVR并未扩展大型语言模型的推理能力,仅优化了采样行为:新研究

研究表明,强化学习与可验证奖励(RLVR)并未提升大型语言模型(LLMs)的推理能力,而是优化了其采样行为。尽管RLVR训练的模型在单次回答中表现更佳,但在多次尝试中,基础模型的成功率更高。这表明RLVR并未创造新的推理模式,而是提高了已有推理路径的效率。

RLVR并未扩展大型语言模型的推理能力,仅优化了采样行为:新研究

DEV Community
DEV Community · 2025-04-26T15:12:55Z

阿里开源的R1-Omni模型首次结合了RLVR与全模态情感识别,显著提升了推理、理解和泛化能力,在情感识别任务中表现优异,受到网友关注,预示着下一代AI的发展方向。

阿里开源R1-Omni,DeepSeek同款RLVR首度结合全模态情感识别,网友:可解释性+多模态学习=下一代AI

量子位
量子位 · 2025-03-11T05:52:14Z

本研究提出了Med-RLVR,利用医学多项选择题数据通过强化学习探讨医学推理的涌现。结果表明,Med-RLVR在医学问题回答上与传统方法相当,但在跨分布泛化能力上提升了8个百分点,显示出其在知识密集型领域的潜力。

Med-RLVR: Emerging Medical Reasoning from a 3B Base Model via Reinforcement Learning

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-02-27T00:00:00Z
  • <<
  • <
  • 1 (current)
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码