小红花·文摘

大模型训练应视为流水线，分为数据工程、预训练、中训、微调和对齐等阶段。每个环节有不同的算力需求和挑战，数据质量至关重要。预训练需处理大量干净数据以确保模型稳定性，中训通过调整数据配比提升能力，微调教会模型理解指令，对齐阶段则使用多种算法优化模型表现。整体训练过程复杂，需关注数据、算力和工程细节。

【大模型基础设施工程】05：训练全景：Pre-train、SFT、RLHF、DPO、蒸馏

土法炼钢兴趣小组的博客 ·

nanobot-sft

plus studio ·

研究表明，在多模态大模型训练中，样本难度比训练范式更为重要。中兴通讯团队首次通过GRPO-only方法，在视觉推理和感知任务中超越传统的SFT+RL范式，提出了PISM和CMAB两种难度量化策略，显著提升了模型性能，验证了难度感知采样的有效性。

精准锁定「硬骨头」：难样本筛选破局SFT依赖，GRPO-only斩获感知推理双最优

量子位 ·

机器之心数据服务现已上线，提供高效稳定的数据获取，简化数据爬取流程。

EMNLP2025 | SFT与RL的结合，vivo AI Lab提出新的后训练方法

机器之心 ·

机器之心数据服务现已上线，提供高效稳定的数据获取，简化数据爬取流程。

SFT远不如RL？永不过时的剃刀原则打开「终身学习」大模型训练的大门

机器之心 ·

机器之心数据服务现已上线，提供高效稳定的数据获取，简化数据爬取流程。

多模态后训练反常识：长思维链SFT和RL的协同困境

机器之心 ·

机器之心数据服务现已上线，提供高效稳定的数据获取，简化用户的数据爬取流程。

首次结合RL与SFT各自优势，动态引导模型实现推理⾼效训练

机器之心 ·

机器之心数据服务现已上线，提供高效稳定的数据获取服务，帮助用户轻松获取所需数据。

SFT+RL双管齐下：ReasonGen-R1如何破解文生图「指令不遵」难题？

机器之心 ·

机器之心数据服务现已上线，提供高效稳定的数据获取，简化数据爬取流程。

无需SFT也不用RL，样本级推理优化神器SLOT来了，准确率轻松+10%

机器之心 ·

机器之心数据服务现已上线，提供高效稳定的数据获取服务，帮助用户轻松获取所需数据。

SFT在帮倒忙？新研究：直接进行强化学习，模型多模态推理上限更高

机器之心 ·

本研究针对中国国有资产和企业（SOAEs）领域特定大型语言模型（LLMs）开发中的关键挑战，提出了一种三阶段框架，解决当前模型容量受限、过度依赖特定监督数据以及推理加速效率低的问题。实验结果表明，该系列模型在维持总体语言能力的同时，显著提高了领域性能，实现了在Rouge-1和BLEU-4分数上的显著提升，展示了为SOAEs LLMs优化的全面性和有效性。

SOAEsV2-7B/72B：通过持续预训练、领域渐进SFT和蒸馏增强推测解码的国有企业大语言模型全流程优化

BriefGPT - AI 论文速递 ·

扩散LLM推理用上类GRPO强化学习！优于单独SFT，UCLA、Meta新框架d1开源

机器之心 ·

本研究解决了在多模态推理中复制复杂推理特征的挑战。通过在非SFT的2B模型上直接应用强化学习，我们成功实现了“顿悟”瞬间，并在CVBench上达到59.47%的准确率，较基线模型提高约30%。该工作的潜在影响在于为多模态推理的发展提供了新思路，同时揭示了传统方法的局限性。

R1-Zero在非SFT模型上的视觉推理“顿悟”

BriefGPT - AI 论文速递 ·

本文介绍了Open R1项目的开源内容，包括GRPO算法实现、数据生成器和训练代码。Open R1复现了R1的训练流程，并提供了OpenR1-Math-220k数据集，以提升数学推理能力。通过详细的数据生成、过滤和评估过程，Open R1团队确保了数据的高质量和准确性。

R1-Zero与R1的复现之路——从Open-Reasoner-Zero到Open R1：先后涉及规则奖励下的PPO迭代，及SFT+GRPO的复现

结构之法算法之道 ·

清华与CMU团队的研究表明，长思维链（CoT）推理能力可以通过强化学习（RL）实现，监督微调（SFT）并非必需，但能提升效率。研究强调奖励函数对CoT扩展的重要性，并指出模型具备自我纠错能力。未来的研究将集中在模型规模和RL基础设施的改进上。

SFT并非必需！推理模型仅靠RL就能获得长思维链能力，清华CMU团队破解黑盒

量子位 ·

本文介绍了NL2Fix任务及其数据集Defects4J-NL2Fix，评估了多种大型语言模型在代码修复中的表现。研究发现，语言模型能够有效修复64.6%的错误，最佳模型在基准测试中达到21.20%的top-1精度。通过高质量数据和新方法（如RepairLLaMA），显著提升了自动代码修复的准确性，强调了数据集完整性和训练样本的重要性，以推动代码安全和修复技术的发展。

PDC与DM-SFT：提升大型语言模型SQL错误修复能力的途径

BriefGPT - AI 论文速递 ·

本研究针对现有价值基础的强化学习（RL）在多轮任务中难以扩展的问题，提出了一种新颖的离线RL算法，将Q学习视为修改后的监督微调（SFT）问题。这种方法能够有效利用语言模型的预训练优势，并在各种任务中展现出良好的性能，具有潜在的应用价值。

Q-SFT：通过监督微调实现的语言模型Q学习

BriefGPT - AI 论文速递 ·

本文提出了一种统一微调（UFT）方法，将序列化应用中的SFT与对齐整合为单一训练阶段，使用相同的目标和损失函数。实验结果表明，UFT在指令调优数据上优于SFT，显著减少了灾难性遗忘，并提升了指令执行和真实性任务的表现。

UFT: Unifying Fine-Tuning of SFT and RLHF/DPO/UNA through a Generalized Implicit Reward Function

BriefGPT - AI 论文速递 ·

本文介绍了监督微调（SFT）和从人类反馈中进行强化学习（RLHF）这两种增强语言模型（LMs）能力的基本过程。通过将它们统一到马尔可夫决策过程（MDP）框架中的偏好估计和转移优化两个子过程中，我们发现SFT只是RLHF的一个特例，估计和优化能力较差。因此，SFT过高估计了模型的能力，导致优化结果不佳。基于这个观点，我们引入了直观微调（IFT）来将SFT和RLHF整合成一个单一过程。IFT通过时间残差连接捕捉LMs对整个答案的直观感知，同时使用相同数量的非偏好标记数据和单一策略作为SFT。我们的实验表明，IFT在需要生成、推理和事实遵循能力的任务上表现出与SFT和一些典型对齐方法相当甚至更好的性能。一个可解释的Frozen Lake游戏进一步验证了IFT的有效性。

微小SFT损失用于大语言模型微调以提高性能和减少模型偏差

BriefGPT - AI 论文速递 ·

通过精心策划和多样化的数据集，我们成功训练了一个较小的基础模型，结果表明更广泛的训练数据可能会增强模型的泛化能力和有效执行能力，强调了数据集质量和多样性的重要性。

集体 SFT：在医疗评估中使用集体指令扩展大型中文语言模型

BriefGPT - AI 论文速递 ·