量子位 ·

Qwen紧追OpenAI开源4B端侧大模型，AIME25得分超越Claude 4 Opus

💡 原文中文，约3100字，阅读约需8分钟。

📝

内容提要

Qwen团队发布了两个新模型：Qwen3-4B-Instruct-2507和Qwen3-4B-Thinking-2507，分别增强了通用能力和推理能力。其中，Qwen3-4B-Thinking-2507在AIME25测评中得分81.3，超越多家竞争对手，适合小型设备运行。

🎯

🔎

Qwen3-4B-Thinking-2507在AIME25测评中得分81.3，超越了Gemini 2.5 Pro和Claude 4 Opus，显示出其在推理任务上的强大能力。这一成绩表明，Qwen团队在模型优化方面取得了显著进展，尤其是在逻辑和数学推理能力上。

Qwen3-4B系列模型的设计使其适合在小型设备上运行，如树莓派。这为开发者提供了更多灵活性，尤其是在资源有限的环境中，能够实现高效的推理和通用能力，适合边缘计算应用。

Qwen团队提供了详细的模型部署建议，适用于本地和极小型设备。开发者在使用时应注意内存管理，尤其是在推理模型中，建议使用较长的上下文长度以提高推理质量，这对于复杂任务尤为重要。

❓

Qwen3-4B-Instruct-2507是非推理模型，提升通用能力；而Qwen3-4B-Thinking-2507是高级推理模型，专为复杂推理任务设计。

Qwen3-4B-Thinking-2507在AIME25测评中得分81.3，超越了多家竞争对手。

这两个模型支持256k上下文，适合小型设备运行，如树莓派。

Qwen3-4B-Instruct-2507在多语言覆盖和长上下文指令理解方面有显著提升。

Qwen团队建议使用Ollama、LMStudio等应用程序进行本地部署，并提供了针对小型设备的量化版本。

Qwen3-4B-Thinking-2507在逻辑、数学、科学及代码推理能力上有显著提升，适合复杂推理任务。

🏷️