小红花·文摘 - 小红花技术领袖俱乐部

一分钟读论文：《Procedural Memory Distillation：Agent经验复用的程序性记忆蒸馏》

一分钟读论文：《Procedural Memory Distillation：Agent经验复用的程序性记忆蒸馏》

Micropaper ·

揭示政策蒸馏：它的优势、劣势及原因

揭示政策蒸馏：它的优势、劣势及原因

Apple Machine Learning Research ·

2026年蒸馏技术三大流派全解析：离线硬学/在线讨教/自我顿悟

2026年蒸馏技术三大流派全解析：离线硬学/在线讨教/自我顿悟

极道 ·

蒸馏攻击大模型之争：到底谁偷了谁的代码和技术秘密

蒸馏攻击大模型之争：到底谁偷了谁的代码和技术秘密

极道 ·

24小时蒸馏最强AI：Claude Fable 5越狱事件全记录

24小时蒸馏最强AI：Claude Fable 5越狱事件全记录

极道 ·

Anthropic指控阿里巴巴发动Claude模型大规模蒸馏攻击

Anthropic指控阿里巴巴发动Claude模型大规模蒸馏攻击

极道 ·

小扎「蒸馏员工」计划紧急喊停！私聊数据都泄露了…

小扎「蒸馏员工」计划紧急喊停！私聊数据都泄露了…

mongona news ·

小扎「蒸馏员工」计划紧急喊停！私聊数据都泄露了…

量子位 ·

开源Qwable-v1全面解析：自称蒸馏自最强Claude Fable 5模型

开源Qwable-v1全面解析：自称蒸馏自最强Claude Fable 5模型

极道 ·

Fable 5自带反蒸馏机制！检测到就降智，误触率高到离谱

Fable 5自带反蒸馏机制！检测到就降智，误触率高到离谱

量子位 ·

高德发布ABot-Earth0.5：跨越2D蒸馏模式，以3D原生驱动高一致性场景生成

量子位 ·

认知难题：Opus 4.8为何自称是千问？与蒸馏无关中转站演双簧

认知难题：Opus 4.8为何自称是千问？与蒸馏无关中转站演双簧

极道 ·

蒸馏 Google 工程基因：把高级工程师的判断力编码给 AI Agent

蒸馏 Google 工程基因：把高级工程师的判断力编码给 AI Agent

乱世浮生 ·

一文通透Qwen3-VL——在交错式MRoPE、DeepStack、文本时间戳对齐机制的基础上，先预训练，再后训练(即分别SFT、蒸馏、RL)

一文通透Qwen3-VL——在交错式MRoPE、DeepStack、文本时间戳对齐机制的基础上，先预训练，再后训练(即分别SFT、蒸馏、RL)

结构之法算法之道 ·

马斯克在法庭上承认其公司xAI蒸馏了OpenAI的模型，引发对AI行业竞争规则的讨论。法官质疑马斯克的动机，指出他一边担忧AI风险，一边创办AI公司。案件结果可能影响AI行业的未来，蒸馏技术的合法性和慈善信托的转型问题将被重新审视。

马斯克当庭承认蒸馏ChatGPT，AI行业最大的遮羞布被扯掉了

dotNET跨平台 ·

一分钟读论文：《把百亿模型装进手机：TIDE实现扩散语言模型跨架构蒸馏》

一分钟读论文：《把百亿模型装进手机：TIDE实现扩散语言模型跨架构蒸馏》

Micropaper ·

本文讨论了大语言模型（LLM）的训练过程，包括初始预训练、继续预训练、监督微调、对齐训练和蒸馏等阶段，重点在于通过不同阶段的训练提升模型能力，特别是在特定领域的应用。蒸馏作为一种压缩模型的方法，旨在降低计算成本的同时保留重要能力。文章还强调了数据质量、任务覆盖和不同阶段的算力需求的重要性。

大预言模型的基石：Transformer 入坑笔记（一） - 大模型训练链路

I'm OWenT ·

大模型训练应视为流水线，分为数据工程、预训练、中训、微调和对齐等阶段。每个环节有不同的算力需求和挑战，数据质量至关重要。预训练需处理大量干净数据以确保模型稳定性，中训通过调整数据配比提升能力，微调教会模型理解指令，对齐阶段则使用多种算法优化模型表现。整体训练过程复杂，需关注数据、算力和工程细节。

【大模型基础设施工程】05：训练全景：Pre-train、SFT、RLHF、DPO、蒸馏

土法炼钢兴趣小组的博客 ·

在线教程丨Qwen3.5 27B蒸馏Claude 4.6 Opus推理能力，兼顾高质量输出与低门槛部署

在线教程丨Qwen3.5 27B蒸馏Claude 4.6 Opus推理能力，兼顾高质量输出与低门槛部署

HyperAI超神经 ·

AI 数学推理新纪元：SAIR Foundation 正式启动“数学蒸馏挑战赛”

量子位 ·