小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI
LWD——结合“分布式隐式价值学习与基于QAM的策略提取”的RL策略框架,先离线RL预训练,后在线RL微调

本文讨论了在真实世界中部署通用机器人策略的挑战,提出了一种名为“部署中学习”(LWD)的框架,通过车队规模的离线到在线强化学习(RL)实现策略的持续改进。该方法结合离线数据和在线交互,利用多样化的部署经验,优化策略以适应新任务和环境。作者提出的分布式隐式价值学习(DIVL)和带有伴随匹配的Q学习(QAM)技术,旨在提高策略的稳定性和泛化能力,实现高效的后训练。

LWD——结合“分布式隐式价值学习与基于QAM的策略提取”的RL策略框架,先离线RL预训练,后在线RL微调

结构之法 算法之道
结构之法 算法之道 · 2026-04-30T14:53:08Z
DeepSeek-V4 技术解析:架构革新与 Coding Agent 后训练优化

DeepSeek-V4技术通过架构创新和后训练优化,显著提升了长上下文处理能力。其混合注意力机制和流形约束超连接提高了效率与稳定性。后训练阶段采用专家培养与全词表蒸馏,增强了Coding Agent的能力,提升了编程任务表现,标志着在长上下文与智能体能力结合上的重要进展。

DeepSeek-V4 技术解析:架构革新与 Coding Agent 后训练优化

jax - 走在路上
jax - 走在路上 · 2026-04-28T12:56:00Z
人工智能基础

人工智能(AI)是识别模式、学习数据并生成有用输出的软件。大型语言模型(LLM)专注于语言,通过大量文本学习生成和转换文本。AI模型分为预训练和后训练阶段,后者强调安全性和可靠性。用户可根据需求选择合适的模型。

人工智能基础

OpenAI
OpenAI · 2026-04-10T00:00:00Z
你不知道的大模型训练:原理、路径与新实践

大模型训练的关键在于后训练阶段,包括指令遵循、评测和奖励等,这些因素直接影响用户体验。预训练是基础,但后续的训练流程和数据配置更决定模型的实际能力。模型优化不仅依赖参数,还需考虑系统架构和反馈机制。

你不知道的大模型训练:原理、路径与新实践

Tw93 的博客
Tw93 的博客 · 2026-04-01T00:00:00Z

与做Agent的朋友交流后,发现主Agent需维护状态机以追踪环境和行为,但常遇到指令遵从和状态记忆丢失的问题。考虑通过后训练让模型学习状态机描述,以提升决策效率。在开发辅助A股投资的Agent时,发现多轮交互难以处理,需要更好的调试工具。最终通过后训练提升了模型表现,体验了后训练的过程。

从 vibe coding agent 到后训练,从零开始的实验科学

高策
高策 · 2026-02-15T15:00:00Z

与做Agent的朋友交流后,发现主Agent需维护状态机以追踪环境状态,但常遇到指令遵循和状态记忆丢失的问题。考虑通过后训练让模型学习状态机描述,以提升决策效率。在开发辅助A股投资的Agent时,发现多轮交互处理困难,需要更好的调试工具。最终通过后训练提升了模型表现,获得了完整的训练体验。

从 vibe coding agent 到后训练,从零开始的实验科学

高策
高策 · 2026-02-15T15:00:00Z
NeMo RL - NeMo RL是一个可扩展的大语言模型后训练强化学习库,适用于大型...

NVIDIA NeMo RL是一个可扩展的后训练强化学习工具包,支持多种训练后端,提供模块化组件,适用于大语言模型和多模态模型的高效训练与评估。其主要功能包括后训练支持、多后端兼容性和可扩展架构,适合强化微调、大规模实验和研究教育。

NeMo RL - NeMo RL是一个可扩展的大语言模型后训练强化学习库,适用于大型...

云原生
云原生 · 2025-11-30T12:03:06Z
Nous Research 发布 Hermes 4:具有混合推理能力的开放权重 AI 模型系列

Nous Research发布的Hermes 4是一个开放权重模型系列,采用后训练技术,具备混合推理能力。核心组件DataForge通过有向无环图生成合成数据,显著提升推理样本质量。Hermes 4在多个基准测试中表现优异,展现了开源AI的潜力与中立性。

Nous Research 发布 Hermes 4:具有混合推理能力的开放权重 AI 模型系列

实时互动网
实时互动网 · 2025-08-29T02:42:52Z
月之暗面Kimi K2开源模型表现良好 Perplexity将基于K2进行训练并提供服务

月之暗面推出的Kimi K2开源模型表现优异,Perplexity AI CEO表示将基于该模型进行后训练,预计不久后提供服务。K2模型在社区中引起关注,使用评价良好。

月之暗面Kimi K2开源模型表现良好 Perplexity将基于K2进行训练并提供服务

蓝点网
蓝点网 · 2025-07-14T06:47:00Z

本研究提出了MiMo-7B模型,通过优化预训练和后训练阶段,显著提升了推理能力和任务性能,超越了更大模型。

MiMo: Unlocking the Reasoning Potential of Language Models - From Pre-training to Fine-tuning

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-05-12T00:00:00Z

本研究提出了一种组方差策略优化(GVPO)方法,以解决后训练中的不稳定性问题,确保奖励最大化与最优策略的一致性,从而提供可靠且灵活的后训练范式。

GVPO: Group Variance Policy Optimization for Post-Training of Large Language Models

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-04-28T00:00:00Z
扩散LLM推理用上类GRPO强化学习!优于单独SFT,UCLA、Meta新框架d1开源

新的扩散模型框架d1通过强化学习提升了大语言模型的推理能力,采用两阶段后训练方法结合监督微调和diffu-GRPO策略梯度,显著改善了数学和逻辑推理任务的表现。

扩散LLM推理用上类GRPO强化学习!优于单独SFT,UCLA、Meta新框架d1开源

机器之心
机器之心 · 2025-04-20T06:34:10Z

本研究提出了ParaPO后训练方法,旨在减少语言模型在非敌对环境中对预训练数据的逐字复制问题。该方法通过优化模型偏好改写版本,显著降低了无意复制现象,同时保持了模型的整体效用。

ParaPO: Aligning Language Models to Reduce Verbatim Reproduction of Pre-training Data

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-04-20T00:00:00Z

本文首次解决大型视觉语言模型在抽象视觉推理中的不足,提出了创新的数据合成和后训练方法。研究表明,LLaVA-NeXT 7B模型在特定AVR问题上优于现有模型,显著提升了性能,推动了领域研究进展。

Research on Data Synthesis and Post-Training for Visual Abstract Reasoning

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-04-02T00:00:00Z

本研究提出了一种新的后训练偏好对齐方法,旨在缩小多智能体运动生成模型与人类偏好之间的差距。通过利用先前训练示范中的隐式反馈,显著提高了生成行为的真实性和一致性,无需额外的人类偏好注释。

通过先验示范中的隐式反馈实现多智能体运动生成模型的直接后训练偏好对齐

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-03-25T00:00:00Z
DeepSeek V3+R1满血微调工具上线!一键启动,硬件要求降10倍

DeepSeek V3/R1结合专业数据进行后训练,提供低成本高质量的私有模型解决方案。Colossal-AI发布的开源工具箱支持多种硬件和训练配置,帮助用户快速微调模型,提升竞争力。

DeepSeek V3+R1满血微调工具上线!一键启动,硬件要求降10倍

机器之心
机器之心 · 2025-02-19T03:56:00Z

OpenAI前联合创始人John Schulman和前VP Barret Zoph在离职后分享了ChatGPT后训练方法的经验与挑战,涵盖模型微调、奖励模型训练和强化学习等内容,强调后训练的重要性及保持模型多样性和趣味性。他们现已加入新创业团队Thinking Machines Lab。

ChatGPT后训练方法被OpenAI离职联创公开,PPT全网转~

量子位
量子位 · 2025-02-19T01:25:43Z
扩展法则如何推动更智能、更强大的人工智能

AI的扩展法则描述了在训练数据、模型参数和计算资源增加时,AI系统性能的提升。主要包括三种法则:预训练扩展(通过增加数据和计算资源提升模型智能)、后训练扩展(在预训练模型基础上进行特定任务优化)和测试时扩展(在推理阶段增加计算以解决复杂问题)。这些法则推动了AI模型的进步与应用。

扩展法则如何推动更智能、更强大的人工智能

NVIDIA Blog
NVIDIA Blog · 2025-02-12T17:15:56Z

本研究探讨了在不可靠监督下,语言模型后训练的有效性。提出的迭代标签精炼方法通过优化监督微调数据,显著提升了模型性能,尤其在复杂任务中表现更佳。

The Importance of Iterative Label Refinement Over Preference Optimization under Weak Supervision

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-01-14T00:00:00Z
一行代码Post-Train任意长序列!360智脑开源360-LLaMA-Factory

360-LLaMA-Factory是基于LLaMA-Factory的开源框架,支持序列并行,简化长序列的后训练。用户只需增加一个参数,经过验证效果良好,适合长文本模型的研究与开发。

一行代码Post-Train任意长序列!360智脑开源360-LLaMA-Factory

机器之心
机器之心 · 2025-01-10T05:29:50Z
  • <<
  • <
  • 1 (current)
  • 2
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
友情链接: MOGE.AI 九胧科技 模力方舟 Gitee AI 菜鸟教程 Remio.AI DeekSeek连连 53AI 神龙海外代理IP IPIPGO全球代理IP 东波哥的博客 匡优考试在线考试系统 开源服务指南 蓝莺IM Solo 独立开发者社区 AI酷站导航 极客Fun 我爱水煮鱼 周报生成器 He3.app 简单简历 白鲸出海 T沙龙 职友集 TechParty 蟒周刊 Best AI Music Generator

小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码