Qwen3“超大杯”推理版在AIME 25测试中获得满分,超越GPT-5系列。尽管仍在训练中,Qwen3-Max-Thinking已可免费试用,技术细节尚未公布。该模型在物理和数学题上表现良好,但仍需优化,用户期待开源。
阿里推出新一代模型Qwen3-Max,在AIME25和HMMT评测中获得满分。同时发布的Qwen3-VL和Qwen3-Omni等新模型支持多模态理解和翻译,展现出强大的性能和应用潜力。
Qwen团队发布了两个新模型:Qwen3-4B-Instruct-2507和Qwen3-4B-Thinking-2507,分别增强了通用能力和推理能力。其中,Qwen3-4B-Thinking-2507在AIME25测评中得分81.3,超越多家竞争对手,适合小型设备运行。
马斯克发布的Grok-4模型在“人类最后考试”中首次突破50%准确率,声称超越所有博士生。其训练量显著增加,工具整合后智能提升,展现出强大的推理和编程能力。未来将推出多模态Agent和视频生成模型。
完成下面两步后,将自动完成登录并继续当前操作。