小红花·文摘 - 小红花技术领袖俱乐部

本文探讨了大模型对齐的流程，包括监督微调（SFT）、奖励模型（RM）和强化学习（RL）。对齐不仅提升了模型对指令的理解能力，还影响推理能力和回答质量。文章介绍了直接偏好优化（DPO）作为一种新方法，简化了训练流程，减少了模型数量，提高了效率。未来研究将关注可验证奖励和长上下文推理，以增强模型的推理能力和应用范围。

【大模型基础设施工程】09：RLHF 与对齐流水线

土法炼钢兴趣小组的博客 ·

大语言模型的训练包括三个阶段：预训练、监督微调和强化学习。预训练通过大量文本学习语言规律，监督微调利用高质量问答对提升回答能力，强化学习则帮助模型建立符合人类期望的价值观。

用通俗的方式介绍大语言模型训练过程

安志合的学习博客 ·

nanobot-sft

nanobot-sft

plus studio ·

小猫都能懂的大模型原理 5 - 后训练

小猫都能懂的大模型原理 5 - 后训练

UsubeniFantasy ·

Meta的研究揭示了强化学习（RL）训练中参数更新稀疏的现象，并提出了三种理论来解释其机制。尽管RL训练显著提升性能，但仅有少量参数被修改，主要由于KL锚定、模型几何和精度过滤等因素。研究表明，RL与监督微调（SFT）在参数优化区域存在显著差异，为RL训练算法设计提供了新思路。

这些大神在Meta的论文看一篇少一篇了

量子位 ·

你的语言模型预知未来：揭示其多标记预测潜力

你的语言模型预知未来：揭示其多标记预测潜力

Apple Machine Learning Research ·

CMU研究发现，数学能力强的大模型在其他领域的表现有限。只有通过强化学习（RL）训练的模型能够有效迁移数学推理技能，而监督微调（SFT）可能导致负迁移。研究表明，微调方法是影响迁移能力的关键，RL模型在保持原有知识的同时提升了特定领域的表现。

大模型刷数学题竟有害？CMU评估20+模型指出训练陷阱

量子位 ·

本研究提出了一种新的多模态任务——视觉问答（VoQA），要求模型根据图像中的视觉问题进行理解和回答。通过引入监督微调策略，显著提升了模型的推理能力和对复杂场景的理解。

视觉问答：仅基于视觉的问答

BriefGPT - AI 论文速递 ·

本研究提出了一种逐步自适应混合训练框架SASR，旨在解决大型语言模型训练中的过拟合和模式崩溃问题。SASR通过动态调整监督微调与强化学习的比例，提升模型性能。

逐步自适应集成监督微调和强化学习用于任务特定的大型语言模型

BriefGPT - AI 论文速递 ·

本研究跟踪DeepSeek-R1发布100天后的复现研究，探讨监督微调和基于可验证奖励的强化学习的进展，揭示数据准备和方法设计的重要发现，推动推理语言模型的进一步探索与应用。

A Follow-Up Survey 100 Days After the Release of DeepSeek-R1: Replication Studies and New Directions for Reasoning Language Models

BriefGPT - AI 论文速递 ·

本研究提出了Phi-4-reasoning模型，以解决复杂推理任务中的性能不足问题。通过监督微调和提示生成，该模型展现了新的推理能力。改进版Phi-4-reasoning-plus利用强化学习进一步提升性能，优于更大的开源模型。

Phi-4推理技术报告

BriefGPT - AI 论文速递 ·

本研究探讨大型语言模型在语义感知中的不足，通过比较上下文学习与监督微调，发现微调后的LLMs在多项任务中表现优异，能够有效处理过程发现和异常检测问题。

The Potential of Large Language Models in Semantic Perception Process Mining Tasks

BriefGPT - AI 论文速递 ·

本文探讨大型语言模型在金融任务中的应用，利用监督微调、偏好优化和强化学习等技术，显著提升模型性能，展现其在金融领域的广泛潜力。

Large Language Models and Finance: Fine-tuning Base Models for Open Financial LLM Rankings

BriefGPT - AI 论文速递 ·

本研究探讨了监督微调方法在数学推理任务中的表现，揭示了推理能力的演变。结果表明，不同难度的问题需要不同的推理风格，极难问题对现有模型提出了新挑战，为未来语言模型的改进提供了指导。

攀登推理阶梯：大型语言模型在监督微调后能够解决和仍然无法解决的问题

BriefGPT - AI 论文速递 ·

本研究探讨了小型语言模型（Llama 2 7B 和 Llama 3 8B）在法律推理任务中的微调方法。通过IRAC格式优化推理过程，结果表明领域特定的监督微调能使模型表现接近人类基准，并在计算资源有限的情况下依然有效。

A Study on Supervised Fine-Tuning of Small Language Models for Legal Reasoning in the Multi-State Bar Exam

BriefGPT - AI 论文速递 ·

本研究提出了专为金融领域设计的推理大型语言模型Fin-R1，采用双阶段架构，通过监督微调和强化学习训练，展现出优异的推理和决策能力，具有显著的实际应用潜力。

Fin-R1: A Large Language Model for Financial Reasoning through Reinforcement Learning

BriefGPT - AI 论文速递 ·

本研究提出联邦持续指令调优（FCIT）基准，旨在解决大规模多模态模型在监督微调中对指令调优数据的依赖问题，从而显著提升模型在数据异构性和灾难性遗忘下的表现。

Federated Continual Instruction Tuning

BriefGPT - AI 论文速递 ·

本研究提出KSOD框架，通过知识基础的监督微调，提升大型语言模型在特定领域任务中的表现，显著降低错误率。

On-Demand Knowledge Augmentation for Language Models

BriefGPT - AI 论文速递 ·

The Current State of Reasoning Models

DemoChen's Clip ·

本研究提出了AutoCoA框架，解决了传统智能体对外部提示的依赖问题。通过结合监督微调和强化学习，该模型能够自主判断何时及如何使用外部工具，从而显著提升长期推理和多步骤任务的完成效果。

Agent Models: Internalizing Action Chain Generation into Reasoning Models

BriefGPT - AI 论文速递 ·