Qwen紧追OpenAI开源4B端侧大模型,AIME25得分超越Claude 4 Opus
💡
原文中文,约3100字,阅读约需8分钟。
📝
内容提要
Qwen团队发布了两个新模型:Qwen3-4B-Instruct-2507和Qwen3-4B-Thinking-2507,分别增强了通用能力和推理能力。其中,Qwen3-4B-Thinking-2507在AIME25测评中得分81.3,超越多家竞争对手,适合小型设备运行。
🎯
关键要点
- Qwen团队发布了两个新模型:Qwen3-4B-Instruct-2507和Qwen3-4B-Thinking-2507。
- Qwen3-4B-Instruct-2507是非推理模型,提升了通用能力。
- Qwen3-4B-Thinking-2507是高级推理模型,专为专家级任务设计。
- Qwen3-4B-Thinking-2507在AIME25测评中得分81.3,超越多家竞争对手。
- 两个模型支持256k上下文,适合小型设备运行。
- Qwen3-4B-Instruct-2507在多语言覆盖和长上下文指令理解方面有显著提升。
- Qwen3-4B-Thinking-2507在逻辑、数学、科学及代码推理能力上有显著提升。
- Qwen3-4B-Instruct-2507与小尺寸模型GPT-4.1-nano相比,通用能力超越。
- Qwen3-4B-Thinking-2507在推理任务上表现优异,适合复杂推理任务。
- Qwen团队提供了模型部署的建议,适用于本地和极小型设备。
❓
延伸问答
Qwen3-4B-Instruct-2507和Qwen3-4B-Thinking-2507有什么区别?
Qwen3-4B-Instruct-2507是非推理模型,提升通用能力;而Qwen3-4B-Thinking-2507是高级推理模型,专为复杂推理任务设计。
Qwen3-4B-Thinking-2507在AIME25测评中的表现如何?
Qwen3-4B-Thinking-2507在AIME25测评中得分81.3,超越了多家竞争对手。
这两个模型适合在哪些设备上运行?
这两个模型支持256k上下文,适合小型设备运行,如树莓派。
Qwen3-4B-Instruct-2507在多语言处理方面有什么优势?
Qwen3-4B-Instruct-2507在多语言覆盖和长上下文指令理解方面有显著提升。
Qwen团队对模型的部署有什么建议?
Qwen团队建议使用Ollama、LMStudio等应用程序进行本地部署,并提供了针对小型设备的量化版本。
Qwen3-4B-Thinking-2507在推理能力上有哪些具体提升?
Qwen3-4B-Thinking-2507在逻辑、数学、科学及代码推理能力上有显著提升,适合复杂推理任务。
➡️