Qwen紧追OpenAI开源4B端侧大模型,AIME25得分超越Claude 4 Opus

💡 原文中文,约3100字,阅读约需8分钟。
📝

内容提要

Qwen团队发布了两个新模型:Qwen3-4B-Instruct-2507和Qwen3-4B-Thinking-2507,分别增强了通用能力和推理能力。其中,Qwen3-4B-Thinking-2507在AIME25测评中得分81.3,超越多家竞争对手,适合小型设备运行。

🎯

关键要点

  • Qwen团队发布了两个新模型:Qwen3-4B-Instruct-2507和Qwen3-4B-Thinking-2507。
  • Qwen3-4B-Instruct-2507是非推理模型,提升了通用能力。
  • Qwen3-4B-Thinking-2507是高级推理模型,专为专家级任务设计。
  • Qwen3-4B-Thinking-2507在AIME25测评中得分81.3,超越多家竞争对手。
  • 两个模型支持256k上下文,适合小型设备运行。
  • Qwen3-4B-Instruct-2507在多语言覆盖和长上下文指令理解方面有显著提升。
  • Qwen3-4B-Thinking-2507在逻辑、数学、科学及代码推理能力上有显著提升。
  • Qwen3-4B-Instruct-2507与小尺寸模型GPT-4.1-nano相比,通用能力超越。
  • Qwen3-4B-Thinking-2507在推理任务上表现优异,适合复杂推理任务。
  • Qwen团队提供了模型部署的建议,适用于本地和极小型设备。

延伸问答

Qwen3-4B-Instruct-2507和Qwen3-4B-Thinking-2507有什么区别?

Qwen3-4B-Instruct-2507是非推理模型,提升通用能力;而Qwen3-4B-Thinking-2507是高级推理模型,专为复杂推理任务设计。

Qwen3-4B-Thinking-2507在AIME25测评中的表现如何?

Qwen3-4B-Thinking-2507在AIME25测评中得分81.3,超越了多家竞争对手。

这两个模型适合在哪些设备上运行?

这两个模型支持256k上下文,适合小型设备运行,如树莓派。

Qwen3-4B-Instruct-2507在多语言处理方面有什么优势?

Qwen3-4B-Instruct-2507在多语言覆盖和长上下文指令理解方面有显著提升。

Qwen团队对模型的部署有什么建议?

Qwen团队建议使用Ollama、LMStudio等应用程序进行本地部署,并提供了针对小型设备的量化版本。

Qwen3-4B-Thinking-2507在推理能力上有哪些具体提升?

Qwen3-4B-Thinking-2507在逻辑、数学、科学及代码推理能力上有显著提升,适合复杂推理任务。

➡️

继续阅读