小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI
Fast-WAM——训练时保留视频联合训练(虽同时生成但动作token不看视频token),在推理时则移除显式的未来视频生成,直接在单次前向中,依托得到的潜在世界表征KV Cache预测动作

研究者探讨了世界模型代理(WAM)在测试阶段是否需要显式未来想象,提出了Fast-WAM架构,训练时保留视频共训练,推理时跳过未来预测。结果显示,视频预测主要在训练阶段提升模型性能,而非在推理阶段生成未来观测。

Fast-WAM——训练时保留视频联合训练(虽同时生成但动作token不看视频token),在推理时则移除显式的未来视频生成,直接在单次前向中,依托得到的潜在世界表征KV Cache预测动作

结构之法 算法之道
结构之法 算法之道 · 2026-03-31T15:57:16Z
7个大型语言模型的核心概念,7分钟讲解

大型语言模型的核心概念包括分词、嵌入、Transformer架构、训练阶段、上下文窗口、温度与采样,以及模型参数与规模。这些概念构成了大型语言模型的技术基础。

7个大型语言模型的核心概念,7分钟讲解

MachineLearningMastery.com
MachineLearningMastery.com · 2025-06-17T12:00:25Z

Qwen3家族技术报告介绍了其双模式架构,支持推理和非推理任务,采用分段训练策略。通过“大带小”蒸馏方法提升小模型能力,并动态分配思考预算以应对不同复杂度的问题。训练分为三个阶段,强化语言理解、推理能力和长文本处理,最终实现思考与非思考模式的无缝融合,增强多场景下的能力与稳定性。

Qwen3家族训练秘籍公开:思考/非思考融进一个模型,大模型蒸馏带动小模型

量子位
量子位 · 2025-05-14T07:34:16Z

DeepSeek-R1的训练分为四个阶段:冷启动、推理强化学习、拒绝采样与监督微调、全场景强化学习。前两个阶段通过SFT和RL提升推理能力和稳定性,后两个阶段增强模型的通用性与人类偏好的对齐,最终实现高性能。

DeepSeek-R1的四个训练阶段 - 蝈蝈俊

蝈蝈俊
蝈蝈俊 · 2025-02-10T00:45:00Z

本文提出了一个新任务,即在不降低模型在未修改信息方面的性能的情况下,显式修改 Transformer 模型中特定的事实知识,并基准化了几种方法。发现了用于知识修改的 Transformer 模型的关键组件,并提供了关于不同训练阶段对记忆和知识修改的见解。

Transformer 前馈层中关键值记忆更新的实证研究

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-02-19T00:00:00Z
dropout 详解

Dropout是一种防止深度神经网络过拟合的方法。在训练阶段,通过随机丢弃一部分神经元并更新参数,降低神经元之间的复杂共适应关系。在测试阶段,使用不带dropout的网络进行预测。Dropout实现模型平均,解决过拟合问题。

dropout 详解

小令童鞋
小令童鞋 · 2023-08-27T03:36:10Z
  • <<
  • <
  • 1 (current)
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
友情链接: MOGE.AI 九胧科技 模力方舟 Gitee AI 菜鸟教程 Remio.AI DeekSeek连连 53AI 神龙海外代理IP IPIPGO全球代理IP 东波哥的博客 匡优考试在线考试系统 开源服务指南 蓝莺IM Solo 独立开发者社区 AI酷站导航 极客Fun 我爱水煮鱼 周报生成器 He3.app 简单简历 白鲸出海 T沙龙 职友集 TechParty 蟒周刊 Best AI Music Generator

小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码