小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI

本文探讨了大模型对齐的流程,包括监督微调(SFT)、奖励模型(RM)和强化学习(RL)。对齐不仅提升了模型对指令的理解能力,还影响推理能力和回答质量。文章介绍了直接偏好优化(DPO)作为一种新方法,简化了训练流程,减少了模型数量,提高了效率。未来研究将关注可验证奖励和长上下文推理,以增强模型的推理能力和应用范围。

【大模型基础设施工程】09:RLHF 与对齐流水线

土法炼钢兴趣小组的博客
土法炼钢兴趣小组的博客 · 2026-04-22T00:00:00Z

大语言模型的训练包括三个阶段:预训练、监督微调和强化学习。预训练通过大量文本学习语言规律,监督微调利用高质量问答对提升回答能力,强化学习则帮助模型建立符合人类期望的价值观。

用通俗的方式介绍大语言模型训练过程

安志合的学习博客
安志合的学习博客 · 2026-01-18T07:14:10Z
nanobot-sft

本文讨论了纳米机器人在监督微调(SFT)中的应用,重点在于数据构造和模型训练过程。模型通过处理用户和助手消息学习生成合适的回复,并强调了在SFT阶段模型如何有效停止输出,提出了线性衰减的学习率策略以提高训练稳定性。

nanobot-sft

plus studio
plus studio · 2026-01-18T00:00:00Z
小猫都能懂的大模型原理 5 - 后训练

本文介绍了大语言模型的基本原理,重点讲述了监督微调(SFT)和强化学习(RLHF)在训练过程中的作用。通过人类反馈优化生成内容,提高与人类偏好的契合度,微调可降低成本并提升特定领域的效果。

小猫都能懂的大模型原理 5 - 后训练

UsubeniFantasy
UsubeniFantasy · 2025-12-08T05:40:13Z

Meta的研究揭示了强化学习(RL)训练中参数更新稀疏的现象,并提出了三种理论来解释其机制。尽管RL训练显著提升性能,但仅有少量参数被修改,主要由于KL锚定、模型几何和精度过滤等因素。研究表明,RL与监督微调(SFT)在参数优化区域存在显著差异,为RL训练算法设计提供了新思路。

这些大神在Meta的论文看一篇少一篇了

量子位
量子位 · 2025-11-17T05:57:25Z
你的语言模型预知未来:揭示其多标记预测潜力

本文提出了一种新框架,利用自回归语言模型提升生成速度和并行性。关键创新包括掩码输入形式、门控LoRA结构、轻量可学习采样模块、辅助训练损失和投机生成策略。该方法在预训练模型上进行监督微调,生成速度提高近5倍,且质量无损。

你的语言模型预知未来:揭示其多标记预测潜力

Apple Machine Learning Research
Apple Machine Learning Research · 2025-08-08T00:00:00Z

CMU研究发现,数学能力强的大模型在其他领域的表现有限。只有通过强化学习(RL)训练的模型能够有效迁移数学推理技能,而监督微调(SFT)可能导致负迁移。研究表明,微调方法是影响迁移能力的关键,RL模型在保持原有知识的同时提升了特定领域的表现。

大模型刷数学题竟有害?CMU评估20+模型指出训练陷阱

量子位
量子位 · 2025-07-08T09:08:45Z

本研究提出了一种新的多模态任务——视觉问答(VoQA),要求模型根据图像中的视觉问题进行理解和回答。通过引入监督微调策略,显著提升了模型的推理能力和对复杂场景的理解。

视觉问答:仅基于视觉的问答

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-05-20T00:00:00Z

本研究提出了一种逐步自适应混合训练框架SASR,旨在解决大型语言模型训练中的过拟合和模式崩溃问题。SASR通过动态调整监督微调与强化学习的比例,提升模型性能。

逐步自适应集成监督微调和强化学习用于任务特定的大型语言模型

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-05-19T00:00:00Z

本研究跟踪DeepSeek-R1发布100天后的复现研究,探讨监督微调和基于可验证奖励的强化学习的进展,揭示数据准备和方法设计的重要发现,推动推理语言模型的进一步探索与应用。

A Follow-Up Survey 100 Days After the Release of DeepSeek-R1: Replication Studies and New Directions for Reasoning Language Models

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-05-01T00:00:00Z

本研究提出了Phi-4-reasoning模型,以解决复杂推理任务中的性能不足问题。通过监督微调和提示生成,该模型展现了新的推理能力。改进版Phi-4-reasoning-plus利用强化学习进一步提升性能,优于更大的开源模型。

Phi-4推理技术报告

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-04-30T00:00:00Z

本研究探讨大型语言模型在语义感知中的不足,通过比较上下文学习与监督微调,发现微调后的LLMs在多项任务中表现优异,能够有效处理过程发现和异常检测问题。

The Potential of Large Language Models in Semantic Perception Process Mining Tasks

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-04-29T00:00:00Z

本文探讨大型语言模型在金融任务中的应用,利用监督微调、偏好优化和强化学习等技术,显著提升模型性能,展现其在金融领域的广泛潜力。

Large Language Models and Finance: Fine-tuning Base Models for Open Financial LLM Rankings

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-04-17T00:00:00Z

本研究探讨了监督微调方法在数学推理任务中的表现,揭示了推理能力的演变。结果表明,不同难度的问题需要不同的推理风格,极难问题对现有模型提出了新挑战,为未来语言模型的改进提供了指导。

攀登推理阶梯:大型语言模型在监督微调后能够解决和仍然无法解决的问题

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-04-16T00:00:00Z

本研究探讨了小型语言模型(Llama 2 7B 和 Llama 3 8B)在法律推理任务中的微调方法。通过IRAC格式优化推理过程,结果表明领域特定的监督微调能使模型表现接近人类基准,并在计算资源有限的情况下依然有效。

A Study on Supervised Fine-Tuning of Small Language Models for Legal Reasoning in the Multi-State Bar Exam

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-04-07T00:00:00Z

本研究提出了专为金融领域设计的推理大型语言模型Fin-R1,采用双阶段架构,通过监督微调和强化学习训练,展现出优异的推理和决策能力,具有显著的实际应用潜力。

Fin-R1: A Large Language Model for Financial Reasoning through Reinforcement Learning

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-03-20T00:00:00Z

本研究提出联邦持续指令调优(FCIT)基准,旨在解决大规模多模态模型在监督微调中对指令调优数据的依赖问题,从而显著提升模型在数据异构性和灾难性遗忘下的表现。

Federated Continual Instruction Tuning

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-03-17T00:00:00Z

本研究提出KSOD框架,通过知识基础的监督微调,提升大型语言模型在特定领域任务中的表现,显著降低错误率。

On-Demand Knowledge Augmentation for Language Models

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-03-10T00:00:00Z
The Current State of Reasoning Models

大型语言模型(LLMs)推理能力的提升成为2025年的热门话题。研究者提出了多种策略,如推理时间计算扩展、强化学习和监督微调,以应对复杂问题。本文重点探讨推理优化的最新研究进展,特别是推理时间计算扩展方法,强调增加计算资源能显著提升模型表现。

The Current State of Reasoning Models

DemoChen's Clip
DemoChen's Clip · 2025-03-09T11:00:31Z

本研究提出了AutoCoA框架,解决了传统智能体对外部提示的依赖问题。通过结合监督微调和强化学习,该模型能够自主判断何时及如何使用外部工具,从而显著提升长期推理和多步骤任务的完成效果。

Agent Models: Internalizing Action Chain Generation into Reasoning Models

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-03-09T00:00:00Z
  • <<
  • <
  • 1 (current)
  • 2
  • 3
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码