大模型训练应视为流水线,分为数据工程、预训练、中训、微调和对齐等阶段。每个环节有不同的算力需求和挑战,数据质量至关重要。预训练需处理大量干净数据以确保模型稳定性,中训通过调整数据配比提升能力,微调教会模型理解指令,对齐阶段则使用多种算法优化模型表现。整体训练过程复杂,需关注数据、算力和工程细节。
本文讨论了纳米机器人在监督微调(SFT)中的应用,重点在于数据构造和模型训练过程。模型通过处理用户和助手消息学习生成合适的回复,并强调了在SFT阶段模型如何有效停止输出,提出了线性衰减的学习率策略以提高训练稳定性。
研究表明,在多模态大模型训练中,样本难度比训练范式更为重要。中兴通讯团队首次通过GRPO-only方法,在视觉推理和感知任务中超越传统的SFT+RL范式,提出了PISM和CMAB两种难度量化策略,显著提升了模型性能,验证了难度感知采样的有效性。
机器之心数据服务现已上线,提供高效稳定的数据获取,简化数据爬取流程。
机器之心数据服务现已上线,提供高效稳定的数据获取,简化用户的数据爬取流程。
机器之心数据服务现已上线,提供高效稳定的数据获取服务,帮助用户轻松获取所需数据。
本研究针对中国国有资产和企业(SOAEs)领域特定大型语言模型(LLMs)开发中的关键挑战,提出了一种三阶段框架,解决当前模型容量受限、过度依赖特定监督数据以及推理加速效率低的问题。实验结果表明,该系列模型在维持总体语言能力的同时,显著提高了领域性能,实现了在Rouge-1和BLEU-4分数上的显著提升,展示了为SOAEs LLMs优化的全面性和有效性。
新的扩散模型框架d1通过强化学习提升了大语言模型的推理能力,采用两阶段后训练方法结合监督微调和diffu-GRPO策略梯度,显著改善了数学和逻辑推理任务的表现。
本研究解决了在多模态推理中复制复杂推理特征的挑战。通过在非SFT的2B模型上直接应用强化学习,我们成功实现了“顿悟”瞬间,并在CVBench上达到59.47%的准确率,较基线模型提高约30%。该工作的潜在影响在于为多模态推理的发展提供了新思路,同时揭示了传统方法的局限性。
本文介绍了Open R1项目的开源内容,包括GRPO算法实现、数据生成器和训练代码。Open R1复现了R1的训练流程,并提供了OpenR1-Math-220k数据集,以提升数学推理能力。通过详细的数据生成、过滤和评估过程,Open R1团队确保了数据的高质量和准确性。
清华与CMU团队的研究表明,长思维链(CoT)推理能力可以通过强化学习(RL)实现,监督微调(SFT)并非必需,但能提升效率。研究强调奖励函数对CoT扩展的重要性,并指出模型具备自我纠错能力。未来的研究将集中在模型规模和RL基础设施的改进上。
本文介绍了NL2Fix任务及其数据集Defects4J-NL2Fix,评估了多种大型语言模型在代码修复中的表现。研究发现,语言模型能够有效修复64.6%的错误,最佳模型在基准测试中达到21.20%的top-1精度。通过高质量数据和新方法(如RepairLLaMA),显著提升了自动代码修复的准确性,强调了数据集完整性和训练样本的重要性,以推动代码安全和修复技术的发展。
本研究针对现有价值基础的强化学习(RL)在多轮任务中难以扩展的问题,提出了一种新颖的离线RL算法,将Q学习视为修改后的监督微调(SFT)问题。这种方法能够有效利用语言模型的预训练优势,并在各种任务中展现出良好的性能,具有潜在的应用价值。
本文提出了一种统一微调(UFT)方法,将序列化应用中的SFT与对齐整合为单一训练阶段,使用相同的目标和损失函数。实验结果表明,UFT在指令调优数据上优于SFT,显著减少了灾难性遗忘,并提升了指令执行和真实性任务的表现。
本文介绍了监督微调(SFT)和从人类反馈中进行强化学习(RLHF)这两种增强语言模型(LMs)能力的基本过程。通过将它们统一到马尔可夫决策过程(MDP)框架中的偏好估计和转移优化两个子过程中,我们发现SFT只是RLHF的一个特例,估计和优化能力较差。因此,SFT过高估计了模型的能力,导致优化结果不佳。基于这个观点,我们引入了直观微调(IFT)来将SFT和RLHF整合成一个单一过程。IFT通过时间残差连接捕捉LMs对整个答案的直观感知,同时使用相同数量的非偏好标记数据和单一策略作为SFT。我们的实验表明,IFT在需要生成、推理和事实遵循能力的任务上表现出与SFT和一些典型对齐方法相当甚至更好的性能。一个可解释的Frozen Lake游戏进一步验证了IFT的有效性。
通过精心策划和多样化的数据集,我们成功训练了一个较小的基础模型,结果表明更广泛的训练数据可能会增强模型的泛化能力和有效执行能力,强调了数据集质量和多样性的重要性。
完成下面两步后,将自动完成登录并继续当前操作。