小红花·文摘

GLM-5.3你来定！智谱唐杰全球征集意见，评论区清一色：视觉

量子位 ·

关于管理不善的天才假说的小型练习（长链推理中的语言模型）

blank ·

人工智能缩水：为何Anthropic的Claude Opus 4.7可能不如其替代模型

The New Stack ·

HRM 架构突破：用仅 2700 万参数和 1000 个训练样本超越最先进的大语言模型

Micropaper ·

蚂蚁推出的Ling-2.5-1T模型拥有万亿参数，具备高效执行力和情商，支持复杂推理和长文本处理，优化设计提升了Token效率，适用于多种Agent任务，是开发者可靠的开源选择。

懂人性更懂执行，蚂蚁这个万亿开源模型把情商和Agent战斗力都给拉满了

量子位 ·

基础模型 vs. 指令模型 vs. 思维模型

Alex Ewerlöf Notes ·

Claude Opus 4.5 现已在 Vercel AI Gateway 上可用

Vercel News ·

开源新王！首次干翻 GPT-5，实测 Kimi K2 Thinking，中国 AI 杀疯了

爱范儿 ·

抖音SAIL团队与LV-NUS Lab联合推出的SAIL-VL2多模态大模型在106个数据集上取得了显著突破，尤其在复杂推理任务中表现出色。该模型通过创新架构和数据处理，展现了小参数规模模型的强大能力，具备细粒度视觉感知和复杂推理能力，成为开源领域的领先者。

抖音&LV-NUS开源多模态新模，以小博大刷新SOTA，8B推理比肩GPT-4o

量子位 ·

OpenAI于8月7日发布了最新的人工智能模型GPT-5，具备更强的编码、创意写作和复杂推理能力。该模型将分批向所有ChatGPT用户开放，Plus和Pro会员可享受更多功能。CEO萨姆·奥尔特曼称其为“巨大飞跃”，并表示GPT-5是实现通用人工智能的重要一步，特别在编程、创意写作和健康领域表现突出。

OpenAI发布最强模型GPT-5，免费向所有用户开放

月光博客 ·

DeepSeek的梁文锋团队在ACL 2025获得最佳论文奖，提出了原生稀疏注意力（NSA）机制，处理长文本的速度提升了11倍，性能超越传统模型。NSA通过动态分层策略优化计算，显著提高推理和训练效率，尤其在复杂推理任务中表现突出。

DeepSeek下一代技术提前曝光，梁文锋署名论文获ACL2025最佳论文奖

量子位 ·

英伟达推出的Llama Nemotron Super v1.5开源模型专为复杂推理和智能体任务设计，吞吐量提升三倍，单卡高效运行。该模型通过神经架构搜索优化，兼顾准确性与效率，适合英语对话和编程任务。

英伟达全新开源模型：三倍吞吐、单卡可跑，还拿下推理SOTA

量子位 ·

解码Google Gemini 2.5：推理、多模态与智能体能力的革命性突破

我爱自然语言处理 ·

阿里推出的WebDancer信息检索Agent具备自主上网搜索和复杂推理能力，超越GPT-4o。该模型经过四阶段训练，能够执行多步骤任务，并在GAIA和WebWalkerQA基准测试中表现优异，开源框架促进其他智能代理的发展。

阿里发布信息检索Agent，可自主上网查资料，GAIA基准超越GPT-4o | 模型&数据开源

量子位 ·

本研究提出了一种自动生成基于上下文的问答对的方法，旨在提升大型语言模型在复杂推理和实时知识整合方面的能力。实验结果显示，该方法在逻辑一致性和事实准确性上优于传统的人类标注问答对。

Automatic Dataset Generation for Knowledge-Intensive Question Answering Tasks

BriefGPT - AI 论文速递 ·

本研究提出SHARP方法，旨在解决STEM领域大型推理模型训练中缺乏高质量、多样且可验证的问题集的问题。SHARP通过自对齐原则和三阶段框架，确保问题生成的多样性和控制，实验结果表明其在复杂推理准确性上显著优于现有方法。

SHARP: Synthesizing High-Quality Aligned Reasoning Problems for Reinforcement Learning in Large Reasoning Models

BriefGPT - AI 论文速递 ·

本文提出了一种新的训练方法J4R，旨在提升大语言模型（LLM）在复杂推理中的评估能力。通过等效初始状态组相对策略优化算法（EIS-GRPO），J4R在多样化推理设置中表现优异，超越了现有模型，显示出显著的性能提升和应用潜力。

J4R: Learning to Judge through Equivalent Initial State Group Relative Preference Optimization

BriefGPT - AI 论文速递 ·

本研究提出了一种“预行动”方法，旨在提升大语言模型在复杂推理任务中的表现。实验结果表明，该方法在行动准确性和目标完成率上显著优于GPT-4，显示出提升小型模型性能的潜力。

Pre-Action: Enhancing the Performance of Large Language Model Agents through Multi-Step Planning and Reasoning

BriefGPT - AI 论文速递 ·

字节推出的Seed1.5-VL多模态推理模型在60项基准测试中获得38项第一，表现优异。该模型结合532M视觉编码器和200亿参数，擅长复杂推理、OCR和图像理解。通过创新的训练方法和架构设计，模型在多模态数据处理上表现突出，但仍存在局限性。

拿下38项第一！字节发布Seed1.5-VL多模态推理模型

量子位 ·

本研究提出有界注意前缀预言机（BAPO）模型，以解决大型语言模型在复杂推理任务中的不足，揭示了内部分沟通带宽限制所带来的挑战。实验证明，连锁思维方法能有效降低任务难度。

Lost in Translation: When and Why Large Language Models Fail to Perform Global Reasoning

BriefGPT - AI 论文速递 ·