小红花·文摘

OpenAI发布了GPT 5.6系列模型，包括旗舰Sol、均衡Terra和低价Luna，标志着AI从“回答工具”进化为“智能体”。新模式“Max”和“Ultra”提升了推理能力和协作效率。ChatGPT与Codex合并，增强了编程功能，以满足更广泛的市场需求。AI行业竞争转向性价比，消费者将受益于更优服务和更低价格。

GPT 5.6 来了，但 OpenAI 最大的杀招不是模型本身

王佳冬中文博客 ·

在线教程｜9B 小模型也能复杂推理，基于 Qwen3.5-9B，Qwythos 融合 Claude 推理经验实现能力跃升

HyperAI超神经 ·

AI论文评审：自一致性提升语言模型中的链式思维推理

freeCodeCamp.org ·

ChatGPT、Gemini与Claude的区别

ByteByteGo Newsletter ·

Claude的脑子里，也长出了一块「意识」

量子位 ·

人类最后考试（HLE）是评估现代AI系统推理和知识能力的基准，包含2500多个专家级问题，涵盖多个学科。尽管HLE被认为有用，但专家意见分歧，部分人认为其过于学术化，无法真实反映AI在实际生活中的表现。HLE旨在克服以往测试的局限性，尽管一些问题存在错误。总体来看，HLE被视为识别最佳AI模型的重要工具。

人类最后考试是一种干扰

KDnuggets ·

京东 Oxygen xLLM 大模型推理引擎正式捐赠开放原子开源基金会，共建国产 AI Infra 生态

京东科技开发者 ·

GLM-5.2是新一代开放权重模型，性能接近顶级闭源模型GPT-5.5，成本仅为其三分之一。该模型拥有7000亿参数，实际运行时激活400亿，推理能力显著提升。推理过程消耗token较多，最大强度下需42000个token。用户可通过调整推理强度优化性价比，日常任务使用中等强度即可。尽管在非幻觉率测试中表现优异，但缺乏视觉输入能力，API稳定性需改进。