小红花·文摘 - 小红花技术领袖俱乐部

$LWD——结合“分布式隐式价值学习与基于QAM的策略提取”的RL策略框架，先离线RL预训练，后在线RL微调$

LWD——结合“分布式隐式价值学习与基于QAM的策略提取”的RL策略框架，先离线RL预训练，后在线RL微调

结构之法算法之道 ·

DeepSeek-V4 技术解析：架构革新与 Coding Agent 后训练优化

DeepSeek-V4 技术解析：架构革新与 Coding Agent 后训练优化

jax - 走在路上 ·

人工智能基础

人工智能基础

OpenAI ·

你不知道的大模型训练：原理、路径与新实践

你不知道的大模型训练：原理、路径与新实践

Tw93 的博客 ·

与做Agent的朋友交流后，发现主Agent需维护状态机以追踪环境和行为，但常遇到指令遵从和状态记忆丢失的问题。考虑通过后训练让模型学习状态机描述，以提升决策效率。在开发辅助A股投资的Agent时，发现多轮交互难以处理，需要更好的调试工具。最终通过后训练提升了模型表现，体验了后训练的过程。

从 vibe coding agent 到后训练，从零开始的实验科学

高策 ·

与做Agent的朋友交流后，发现主Agent需维护状态机以追踪环境状态，但常遇到指令遵循和状态记忆丢失的问题。考虑通过后训练让模型学习状态机描述，以提升决策效率。在开发辅助A股投资的Agent时，发现多轮交互处理困难，需要更好的调试工具。最终通过后训练提升了模型表现，获得了完整的训练体验。

从 vibe coding agent 到后训练，从零开始的实验科学

高策 ·

NeMo RL - NeMo RL是一个可扩展的大语言模型后训练强化学习库，适用于大型...

NeMo RL - NeMo RL是一个可扩展的大语言模型后训练强化学习库，适用于大型...

云原生 ·

Nous Research 发布 Hermes 4：具有混合推理能力的开放权重 AI 模型系列

Nous Research 发布 Hermes 4：具有混合推理能力的开放权重 AI 模型系列

实时互动网 ·

月之暗面Kimi K2开源模型表现良好 Perplexity将基于K2进行训练并提供服务

月之暗面Kimi K2开源模型表现良好 Perplexity将基于K2进行训练并提供服务

蓝点网 ·

本研究提出了MiMo-7B模型，通过优化预训练和后训练阶段，显著提升了推理能力和任务性能，超越了更大模型。

MiMo: Unlocking the Reasoning Potential of Language Models - From Pre-training to Fine-tuning

BriefGPT - AI 论文速递 ·

本研究提出了一种组方差策略优化（GVPO）方法，以解决后训练中的不稳定性问题，确保奖励最大化与最优策略的一致性，从而提供可靠且灵活的后训练范式。

GVPO: Group Variance Policy Optimization for Post-Training of Large Language Models

BriefGPT - AI 论文速递 ·

扩散LLM推理用上类GRPO强化学习！优于单独SFT，UCLA、Meta新框架d1开源

扩散LLM推理用上类GRPO强化学习！优于单独SFT，UCLA、Meta新框架d1开源

机器之心 ·

本研究提出了ParaPO后训练方法，旨在减少语言模型在非敌对环境中对预训练数据的逐字复制问题。该方法通过优化模型偏好改写版本，显著降低了无意复制现象，同时保持了模型的整体效用。

ParaPO: Aligning Language Models to Reduce Verbatim Reproduction of Pre-training Data

BriefGPT - AI 论文速递 ·

本文首次解决大型视觉语言模型在抽象视觉推理中的不足，提出了创新的数据合成和后训练方法。研究表明，LLaVA-NeXT 7B模型在特定AVR问题上优于现有模型，显著提升了性能，推动了领域研究进展。

Research on Data Synthesis and Post-Training for Visual Abstract Reasoning

BriefGPT - AI 论文速递 ·

本研究提出了一种新的后训练偏好对齐方法，旨在缩小多智能体运动生成模型与人类偏好之间的差距。通过利用先前训练示范中的隐式反馈，显著提高了生成行为的真实性和一致性，无需额外的人类偏好注释。

通过先验示范中的隐式反馈实现多智能体运动生成模型的直接后训练偏好对齐

BriefGPT - AI 论文速递 ·

DeepSeek V3+R1满血微调工具上线！一键启动，硬件要求降10倍

DeepSeek V3+R1满血微调工具上线！一键启动，硬件要求降10倍

机器之心 ·

OpenAI前联合创始人John Schulman和前VP Barret Zoph在离职后分享了ChatGPT后训练方法的经验与挑战，涵盖模型微调、奖励模型训练和强化学习等内容，强调后训练的重要性及保持模型多样性和趣味性。他们现已加入新创业团队Thinking Machines Lab。

ChatGPT后训练方法被OpenAI离职联创公开，PPT全网转～

量子位 ·

扩展法则如何推动更智能、更强大的人工智能

扩展法则如何推动更智能、更强大的人工智能

NVIDIA Blog ·

本研究探讨了在不可靠监督下，语言模型后训练的有效性。提出的迭代标签精炼方法通过优化监督微调数据，显著提升了模型性能，尤其在复杂任务中表现更佳。

The Importance of Iterative Label Refinement Over Preference Optimization under Weak Supervision

BriefGPT - AI 论文速递 ·

一行代码Post-Train任意长序列！360智脑开源360-LLaMA-Factory

一行代码Post-Train任意长序列！360智脑开源360-LLaMA-Factory

机器之心 ·