本文讨论了在真实世界中部署通用机器人策略的挑战,提出了一种名为“部署中学习”(LWD)的框架,通过车队规模的离线到在线强化学习(RL)实现策略的持续改进。该方法结合离线数据和在线交互,利用多样化的部署经验,优化策略以适应新任务和环境。作者提出的分布式隐式价值学习(DIVL)和带有伴随匹配的Q学习(QAM)技术,旨在提高策略的稳定性和泛化能力,实现高效的后训练。
DeepSeek-V4技术通过架构创新和后训练优化,显著提升了长上下文处理能力。其混合注意力机制和流形约束超连接提高了效率与稳定性。后训练阶段采用专家培养与全词表蒸馏,增强了Coding Agent的能力,提升了编程任务表现,标志着在长上下文与智能体能力结合上的重要进展。
人工智能(AI)是识别模式、学习数据并生成有用输出的软件。大型语言模型(LLM)专注于语言,通过大量文本学习生成和转换文本。AI模型分为预训练和后训练阶段,后者强调安全性和可靠性。用户可根据需求选择合适的模型。
大模型训练的关键在于后训练阶段,包括指令遵循、评测和奖励等,这些因素直接影响用户体验。预训练是基础,但后续的训练流程和数据配置更决定模型的实际能力。模型优化不仅依赖参数,还需考虑系统架构和反馈机制。
与做Agent的朋友交流后,发现主Agent需维护状态机以追踪环境和行为,但常遇到指令遵从和状态记忆丢失的问题。考虑通过后训练让模型学习状态机描述,以提升决策效率。在开发辅助A股投资的Agent时,发现多轮交互难以处理,需要更好的调试工具。最终通过后训练提升了模型表现,体验了后训练的过程。
与做Agent的朋友交流后,发现主Agent需维护状态机以追踪环境状态,但常遇到指令遵循和状态记忆丢失的问题。考虑通过后训练让模型学习状态机描述,以提升决策效率。在开发辅助A股投资的Agent时,发现多轮交互处理困难,需要更好的调试工具。最终通过后训练提升了模型表现,获得了完整的训练体验。
NVIDIA NeMo RL是一个可扩展的后训练强化学习工具包,支持多种训练后端,提供模块化组件,适用于大语言模型和多模态模型的高效训练与评估。其主要功能包括后训练支持、多后端兼容性和可扩展架构,适合强化微调、大规模实验和研究教育。
Nous Research发布的Hermes 4是一个开放权重模型系列,采用后训练技术,具备混合推理能力。核心组件DataForge通过有向无环图生成合成数据,显著提升推理样本质量。Hermes 4在多个基准测试中表现优异,展现了开源AI的潜力与中立性。
月之暗面推出的Kimi K2开源模型表现优异,Perplexity AI CEO表示将基于该模型进行后训练,预计不久后提供服务。K2模型在社区中引起关注,使用评价良好。
本研究提出了MiMo-7B模型,通过优化预训练和后训练阶段,显著提升了推理能力和任务性能,超越了更大模型。
本研究提出了一种组方差策略优化(GVPO)方法,以解决后训练中的不稳定性问题,确保奖励最大化与最优策略的一致性,从而提供可靠且灵活的后训练范式。
新的扩散模型框架d1通过强化学习提升了大语言模型的推理能力,采用两阶段后训练方法结合监督微调和diffu-GRPO策略梯度,显著改善了数学和逻辑推理任务的表现。
本研究提出了ParaPO后训练方法,旨在减少语言模型在非敌对环境中对预训练数据的逐字复制问题。该方法通过优化模型偏好改写版本,显著降低了无意复制现象,同时保持了模型的整体效用。
本文首次解决大型视觉语言模型在抽象视觉推理中的不足,提出了创新的数据合成和后训练方法。研究表明,LLaVA-NeXT 7B模型在特定AVR问题上优于现有模型,显著提升了性能,推动了领域研究进展。
本研究提出了一种新的后训练偏好对齐方法,旨在缩小多智能体运动生成模型与人类偏好之间的差距。通过利用先前训练示范中的隐式反馈,显著提高了生成行为的真实性和一致性,无需额外的人类偏好注释。
DeepSeek V3/R1结合专业数据进行后训练,提供低成本高质量的私有模型解决方案。Colossal-AI发布的开源工具箱支持多种硬件和训练配置,帮助用户快速微调模型,提升竞争力。
OpenAI前联合创始人John Schulman和前VP Barret Zoph在离职后分享了ChatGPT后训练方法的经验与挑战,涵盖模型微调、奖励模型训练和强化学习等内容,强调后训练的重要性及保持模型多样性和趣味性。他们现已加入新创业团队Thinking Machines Lab。
AI的扩展法则描述了在训练数据、模型参数和计算资源增加时,AI系统性能的提升。主要包括三种法则:预训练扩展(通过增加数据和计算资源提升模型智能)、后训练扩展(在预训练模型基础上进行特定任务优化)和测试时扩展(在推理阶段增加计算以解决复杂问题)。这些法则推动了AI模型的进步与应用。
本研究探讨了在不可靠监督下,语言模型后训练的有效性。提出的迭代标签精炼方法通过优化监督微调数据,显著提升了模型性能,尤其在复杂任务中表现更佳。
360-LLaMA-Factory是基于LLaMA-Factory的开源框架,支持序列并行,简化长序列的后训练。用户只需增加一个参数,经过验证效果良好,适合长文本模型的研究与开发。
完成下面两步后,将自动完成登录并继续当前操作。