机器之心 ·

原来，这些顶级大模型都是蒸馏的

💡 原文中文，约3600字，阅读约需9分钟。

📝

内容提要

研究者发现许多知名的闭源和开源大语言模型（LLM）存在高蒸馏度，尤其是Claude、豆包和Gemini例外。虽然蒸馏可以提升模型能力，但过度蒸馏会导致同质化，影响模型处理复杂任务的能力。论文提出了量化蒸馏程度的方法，包括响应相似度评估（RSE）和身份一致性评估（ICE），并通过实验验证了不同模型的蒸馏程度。

🎯

关键要点

研究者发现许多知名的闭源和开源大语言模型（LLM）存在高蒸馏度，Claude、豆包和Gemini是例外。
蒸馏可以提升模型能力，但过度蒸馏会导致同质化，影响模型处理复杂任务的能力。
论文提出了量化蒸馏程度的方法，包括响应相似度评估（RSE）和身份一致性评估（ICE）。
研究者测试了多个模型，发现大多数模型存在高蒸馏度，且在身份声明上存在矛盾。
蒸馏过程的不透明性、基准数据缺乏和冗余信息是量化蒸馏的主要挑战。
RSE通过比较原始LLM和学生模型的输出，评估模型的同质化程度。
ICE通过构造提示绕过LLM的自我认知，评估模型在身份信息上的一致性。
实验结果显示GLM-4-Plus、Qwen-Max和Deepseek-V3的蒸馏程度较高，而Claude和豆包的蒸馏程度较低。
基础LLM通常表现出更高的蒸馏程度，闭源模型的蒸馏程度高于开源模型。
RSE结果表明GPT系列的LLM表现出最高的响应相似度，蒸馏程度较低的模型包括Llama3.1和豆包。

❓

延伸问答

哪些大语言模型的蒸馏程度较高？

大多数闭源和开源大语言模型的蒸馏程度较高，Claude、豆包和Gemini是例外。

蒸馏对模型能力的影响是什么？

蒸馏可以提升模型能力，但过度蒸馏会导致同质化，影响模型处理复杂任务的能力。

研究者提出了哪些方法来量化蒸馏程度？

研究者提出了响应相似度评估（RSE）和身份一致性评估（ICE）两种方法。

蒸馏过程面临哪些挑战？

蒸馏过程的不透明性、基准数据缺乏和冗余信息是主要挑战。

实验结果显示哪些模型的蒸馏程度较低？

Claude和豆包的蒸馏程度较低，几乎没有显示可疑响应。

RSE和ICE的评估方法有什么不同？

RSE通过比较模型输出的相似度来评估同质化程度，而ICE则评估模型在身份信息上的一致性。

🏷️

继续阅读

国产大模型编码能力实测(GLM 5.1、Kimi K2.6、Mimo v2.5 Pro 和 DeepSeek V4 Pro)
本文对四款国产大模型（GLM 5.1、Kimi K2.6、Mimo v2.5 Pro 和 DeepSeek V4 Pro）的编码能力进行了实测。结果显示，...
NVIDIA Launches Ising Open Models for Quantum Computing
NVIDIA has announced a new family of open models called NVIDIA Ising, designe...
Vibhor Kumar：平稳平台测试：您的PostgreSQL策略是否适合企业？
Features create capability. Calm operations create trust. Most platfor...
Rivian的收入增长，R2生产加速
Rivian在2026年第一季度销售了10,365辆电动车，同比增长20%，收入达13.8亿美元。公司计划推出更实惠的R2车型，预计年底销售20,000辆...
Rivian缩减其在乔治亚州电动车工厂的目标
Rivian宣布因与美国能源部的贷款协议调整，将乔治亚州电动车工厂的年产能力从40万辆减少至30万辆，新的贷款金额为45亿美元，低于原先的66亿美元。Ri...
Nemotron Labs: What OpenClaw Agents Mean for Every Organization
By early 2026, the open source project OpenClaw had become a phenomenon. In J...