小红花·文摘 - 小红花技术领袖俱乐部

论文周报 |微软MAI-Thinking探索纯RL自我进化，AIME准确率达97%；无需架构修改，VLM³凭纯文本坐标实现3D任务泛化...速览一周AI前沿论文

论文周报 |微软MAI-Thinking探索纯RL自我进化，AIME准确率达97%；无需架构修改，VLM³凭纯文本坐标实现3D任务泛化...速览一周AI前沿论文

HyperAI超神经 ·

美团 LongCat 发布 AMO-Bench：突破 AIME 评测饱和困境，重新定义 LLM 数学上限

美团 LongCat 发布 AMO-Bench：突破 AIME 评测饱和困境，重新定义 LLM 数学上限

美团技术团队 ·

Qwen3“超大杯”推理版在AIME 25测试中获得满分，超越GPT-5系列。尽管仍在训练中，Qwen3-Max-Thinking已可免费试用，技术细节尚未公布。该模型在物理和数学题上表现良好，但仍需优化，用户期待开源。

Qwen拿半成品刷下AIME’25满分，给别人留点面子吧……

量子位 ·

阿里推出新一代模型Qwen3-Max，在AIME25和HMMT评测中获得满分。同时发布的Qwen3-VL和Qwen3-Omni等新模型支持多模态理解和翻译，展现出强大的性能和应用潜力。

AIME’25满分炸场！Qwen一波七连发，全家桶大更新

量子位 ·

Qwen3-Next模型发布，参数80B，训练成本低，推理速度提升10倍，超越Gemini-2.5-Flash-Thinking。核心改进包括混合注意力机制和高稀疏度MoE结构，支持多模态，具备快速解题和编程能力。

实测！Qwen下一代基础架构突袭！秒解AIME数学竞赛题，提速10倍+性价比提升10倍

量子位 ·

全球首款模块化人工智能陪伴机器人TCL AiMe首次登陆欧洲

全球首款模块化人工智能陪伴机器人TCL AiMe首次登陆欧洲

全球TMT-美通国际 ·

亚马逊云科技助力安克创新智能化升级

亚马逊云科技助力安克创新智能化升级

全球TMT-美通国际 ·

近期，推理模型热潮持续升温，OpenAI、xAI 和 Anthropic 等公司推出新模型。推理能力成为模型性能的重要指标，而数据质量是实现深度逻辑推演的关键。构建高质量推理数据集需精心设计，模拟人类解题过程。DeepSeek 在 AIME 数学竞赛中的成功，提升了行业对推理数据集的关注。

覆盖数学/代码/科学/谜题，高质量推理数据集汇总，助力复现DeepSeek超强推理能力

HyperAI超神经 ·

解决（部分）形式数学奥林匹克问题

解决（部分）形式数学奥林匹克问题

OpenAI ·