美团LongCat团队推出AMO-Bench,包含50道高难度原创数学推理题,旨在提升大模型的推理能力。目前顶尖模型在该评测中的表现仍未及格,显示出其在复杂推理任务上的局限性。AMO-Bench为行业提供了新的评测标准,未来将持续更新。
Qwen3“超大杯”推理版在AIME 25测试中获得满分,超越GPT-5系列。尽管仍在训练中,Qwen3-Max-Thinking已可免费试用,技术细节尚未公布。该模型在物理和数学题上表现良好,但仍需优化,用户期待开源。
阿里推出新一代模型Qwen3-Max,在AIME25和HMMT评测中获得满分。同时发布的Qwen3-VL和Qwen3-Omni等新模型支持多模态理解和翻译,展现出强大的性能和应用潜力。
Qwen3-Next模型发布,参数80B,训练成本低,推理速度提升10倍,超越Gemini-2.5-Flash-Thinking。核心改进包括混合注意力机制和高稀疏度MoE结构,支持多模态,具备快速解题和编程能力。
TCL在2025年柏林国际电子消费品展览会上展示了C9K Premium QD-Mini LED电视、超宽屏显示器57R94 Dual 4K、Z100无线音响,以及护眼的NXTPAPER 60 Ultra手机和NXTPAPER 11 Plus平板电脑。此外,模块化AI陪伴机器人TCL AiMe首次亮相。
安克创新与亚马逊云科技合作,利用生成式AI技术提升研发和营销效率。通过Amazon Bedrock和Amazon Q Developer,编码效率提高超过50%,智能客服系统的AI解决率超过70%。公司启动“全面拥抱AI”战略,构建个性化智能客服和企业级AI能力平台“AIME”。
近期,推理模型热潮持续升温,OpenAI、xAI 和 Anthropic 等公司推出新模型。推理能力成为模型性能的重要指标,而数据质量是实现深度逻辑推演的关键。构建高质量推理数据集需精心设计,模拟人类解题过程。DeepSeek 在 AIME 数学竞赛中的成功,提升了行业对推理数据集的关注。
我们开发了一个神经定理证明器,能够解决多种高中奥林匹克问题,包括AMC12和AIME竞赛中的问题,以及两个改编自IMO的问题。
完成下面两步后,将自动完成登录并继续当前操作。