小红花·文摘

$Fast-WAM——训练时保留视频联合训练(虽同时生成但动作token不看视频token)，在推理时则移除显式的未来视频生成，直接在单次前向中，依托得到的潜在世界表征KV Cache预测动作$

结构之法算法之道 ·

MachineLearningMastery.com ·

Qwen3家族技术报告介绍了其双模式架构，支持推理和非推理任务，采用分段训练策略。通过“大带小”蒸馏方法提升小模型能力，并动态分配思考预算以应对不同复杂度的问题。训练分为三个阶段，强化语言理解、推理能力和长文本处理，最终实现思考与非思考模式的无缝融合，增强多场景下的能力与稳定性。

量子位 ·

DeepSeek-R1的训练分为四个阶段：冷启动、推理强化学习、拒绝采样与监督微调、全场景强化学习。前两个阶段通过SFT和RL提升推理能力和稳定性，后两个阶段增强模型的通用性与人类偏好的对齐，最终实现高性能。

蝈蝈俊 ·

本文提出了一个新任务，即在不降低模型在未修改信息方面的性能的情况下，显式修改 Transformer 模型中特定的事实知识，并基准化了几种方法。发现了用于知识修改的 Transformer 模型的关键组件，并提供了关于不同训练阶段对记忆和知识修改的见解。

BriefGPT - AI 论文速递 ·

小令童鞋 ·