阿里Qwen3重磅发布：是超越Llama 4的划时代的胜利，还是性能未达预期、被过度炒作的技术翻车现场深度剖析？

硕鼠的博客站 ·

阿里Qwen3重磅发布：是超越Llama 4的划时代的胜利，还是性能未达预期、被过度炒作的技术翻车现场深度剖析？

💡 原文中文，约7700字，阅读约需19分钟。

📝

内容提要

Qwen3发布后引发热议，具备多种模型和强大功能，支持119种语言。其训练数据量大，采用原生数据，后训练提升性能。尽管在复杂推理上仍有不足，但整体表现超越DeepSeek R1，接近Gemini 2.5 Pro，标志着AI模型的重大进步。

🎯

关键要点

Qwen3发布后引发热议，具备多种模型和强大功能，支持119种语言。
训练数据量大，采用原生数据，后训练提升性能。
在复杂推理上仍有不足，但整体表现超越DeepSeek R1，接近Gemini 2.5 Pro。
Qwen3提供全配置模型，从0.6B到235B，适用于多场景。
上下文窗口扩展至128K，部分情况下可达256K。
训练数据来源包括60%原生数据、25%专业领域数据和15%合成增强数据。
后训练包括长思维链冷启动、强化学习、模式融合和通用校准。
技术创新包括混合推理架构、MOE参数效率提升和多语言支持。
Qwen3在Agent能力上增强，支持MCP协议，工具调用准确率提升40%。
对Qwen3的期待和评分存在落差，部分评测存在田忌赛马现象。
Qwen3在数学、代码和Agent等方面超越DeepSeek R1，部分场景接近Gemini 2.5 Pro。
复杂推理中的逻辑断层和幻觉生成问题仍然存在。
Qwen3与LLAMA4相比，完全开源，体积小，参数少，性能高。
Qwen3支持MCP，使用体验良好，但在某些情况下生成代码可能存在小错误。
当前是大模型密集发布的周期，未来将有更多新模型推出。

❓

延伸问答

Qwen3的主要特性是什么？

Qwen3具备多种模型和强大功能，支持119种语言，训练数据量大，采用原生数据，后训练提升性能。

Qwen3与LLAMA4相比有什么优势？

Qwen3完全开源，体积小，参数少，性能高，支持MCP协议，适用于多种场景。

Qwen3在复杂推理方面存在哪些不足？

Qwen3在复杂推理中存在逻辑断层和幻觉生成问题，表现不如预期。

Qwen3的训练数据来源是什么？

Qwen3的训练数据来源包括60%原生数据、25%专业领域数据和15%合成增强数据。

Qwen3的上下文窗口有多大？

Qwen3的上下文窗口扩展至128K，部分情况下可达256K。

Qwen3的后训练过程包括哪些步骤？

后训练包括长思维链冷启动、强化学习、模式融合和通用校准四个步骤。

🏷️

继续阅读

史上最强游戏掌机来了！性能堪比 PS5，但……
今年掌机市场因元器件成本上涨而涨价，但英特尔等公司推出的新芯片提升了掌机性能和能效。微星和宏碁的新款掌机搭载英特尔 Arc G3 处理器，表现出色，续航能...
与TorchRec KeyedJaggedTensor的同步
推荐系统中的稀疏特征用于建模用户偏好和物品特性，但存在输入数据长度不一和内存浪费的问题。TorchRec的KeyedJaggedTensor通过合并稀疏特...
阿里开源Open Code Review：一款AI代码评审命令行工具
阿里巴巴开源的Open Code Review（OCR）是一款AI代码审查工具，能够自动审查Git提交和代码变更。它通过分析代码库，识别潜在的空指针、线程...
谷歌Gemma 4 12B的性能几乎与26B基准相当——并可在您的笔记本电脑上运行
谷歌推出了Gemma 4 12B模型，旨在为标准笔记本电脑提供高性能的多模态智能。该模型内存占用比Gemma 4 26B小一半，但性能接近，支持本地运行，...
《Control Resonant》是续集——同时也是一个入门点
《Control Resonant》是2019年游戏《Control》的续集，围绕主角Dylan探索超自然世界。玩家通过Dylan的视角体验超自然现象，游...
国会仍未能就无证监视问题达成一致
国会在重新授权《外国情报监视法》第702条款方面仍未达成一致。特朗普任命比尔·普尔特为国家情报局局长，导致共和党重新授权计划受阻。民主党反对延长该条款，原...