Qwen团队发布了两个新模型:Qwen3-4B-Instruct-2507和Qwen3-4B-Thinking-2507,分别增强了通用能力和推理能力。其中,Qwen3-4B-Thinking-2507在AIME25测评中得分81.3,超越多家竞争对手,适合小型设备运行。
本研究提出了无数据的知识蒸馏方法,通过压缩大型视觉变换器模型,提升其在小型设备上的应用潜力。实验证明该方法能够优化视觉变换器的性能,使其在有限资源下仍具有较高的应用效果。
完成下面两步后,将自动完成登录并继续当前操作。