小红花·文摘 - 小红花技术领袖俱乐部

后训练是调整预训练模型以实现特定目标的方法，包括预训练、监督微调、奖励建模、策略优化和评测。风格对齐关注表达方式，能力激发关注任务成功率。RLHF通过人类偏好优化助手行为，DPO简化为离线分类损失，RLVR通过可验证奖励提升推理能力。

【强化学习与大模型后训练】01｜系列总览：从 RL 到 LLM 后训练的地图

土法炼钢兴趣小组的博客 ·

mAceReason-Math：一个高质量的多语言数学问题数据集，支持强化学习与可验证奖励（RLVR）

mAceReason-Math：一个高质量的多语言数学问题数据集，支持强化学习与可验证奖励（RLVR）

Apple Machine Learning Research ·

LightOnOCR-2-1B：基于 RLVR 训练实现高精度端到端 OCR；Google Streetview 国家街景图像：基于世界级地理映射技术的全景图像开源库

LightOnOCR-2-1B：基于 RLVR 训练实现高精度端到端 OCR；Google Streetview 国家街景图像：基于世界级地理映射技术的全景图像开源库

HyperAI超神经 ·

揭秘！RLVR/GRPO中那些长期被忽略的关键缺陷

揭秘！RLVR/GRPO中那些长期被忽略的关键缺陷

机器之心 ·

AI 大神 Karpathy 2025 年度总结刷屏：AI 既是天才也是智障，这 6 个转折最关键

AI 大神 Karpathy 2025 年度总结刷屏：AI 既是天才也是智障，这 6 个转折最关键

爱范儿 ·

RLVR的力量：在Databricks上训练领先的SQL推理模型

RLVR的力量：在Databricks上训练领先的SQL推理模型

Databricks ·

Claude 4的思考方式通过可验证奖励强化学习（RLVR）得到验证，未来将能够完成更复杂的任务。研究人员认为AI获得诺贝尔奖比普利策奖更容易，并强调反馈循环的重要性。同时，模型的自我意识和可解释性也在研究中，未来的智能体将能够独立完成复杂工作。

Claude 4如何思考？资深研究员回应：RLVR已在编程/数学得到验证

量子位 ·

RLVR并未扩展大型语言模型的推理能力，仅优化了采样行为：新研究

RLVR并未扩展大型语言模型的推理能力，仅优化了采样行为：新研究

DEV Community ·

阿里开源的R1-Omni模型首次结合了RLVR与全模态情感识别，显著提升了推理、理解和泛化能力，在情感识别任务中表现优异，受到网友关注，预示着下一代AI的发展方向。

阿里开源R1-Omni，DeepSeek同款RLVR首度结合全模态情感识别，网友：可解释性+多模态学习=下一代AI

量子位 ·

本研究提出了Med-RLVR，利用医学多项选择题数据通过强化学习探讨医学推理的涌现。结果表明，Med-RLVR在医学问题回答上与传统方法相当，但在跨分布泛化能力上提升了8个百分点，显示出其在知识密集型领域的潜力。

Med-RLVR: Emerging Medical Reasoning from a 3B Base Model via Reinforcement Learning

BriefGPT - AI 论文速递 ·