小红花·文摘

GPT-5全面领先，OpenAI发布FrontierScience，「推理+科研」双轨检验大模型能力

HyperAI超神经 ·

Eigen-1系统在HLE测试中首次突破60分，Pass@1准确率为48.3%，Pass@5为61.74%。该系统基于开源DeepSeek V3.1，采用隐式知识增强、分层解决方案精炼和质量感知迭代推理三大创新机制，显著提升了AI的科学推理能力。

HLE首次突破60分！Eigen-1基于DeepSeek V3.1领先GPT-5

量子位 ·

软件测试的逻辑、哲学与科学：开发者手册

freeCodeCamp.org ·

本研究提出了多模态大型语言模型MatterChat，旨在解决无机材料性质理解与预测的挑战。该模型结合材料结构数据与文本信息，显著提升了材料性质预测性能，超越了通用模型如GPT-4，展现了在科学推理和材料合成中的潜在价值。

MatterChat: A Multi-Modal Large Language Model for Material Science

BriefGPT - AI 论文速递 ·

本研究提出了一种知识增强系统，结合知识图谱、问答对和大型语言模型，显著提升了钙钛矿太阳能电池领域的知识检索和科学推理效果，对研究人员的文献回顾和实验设计具有重要影响。

Perovskite - Knowledge-Enhanced Large Language Models for Perovskite Solar Cell Research

BriefGPT - AI 论文速递 ·

本研究提出了一个四阶段的研究路线图，旨在解决现有科学推理模型在跨领域泛化和多模态感知方面的不足，强调大规模语言模型在整合和推理不同数据类型中的能力，为实现人工通用智能提供新的视角。

Multimodal Large Language Models Can Significantly Advance Scientific Reasoning

BriefGPT - AI 论文速递 ·

本研究提出了SCP-116K数据集，包含116,756对高质量题-解，旨在解决高等教育科学领域缺乏优质数据集的问题。该数据集通过高效的自动提取管道，确保材料的科学性和教育水平，促进科学推理研究和高级科学推理任务的发展。

SCP-116K：一个高质量的题-解数据集及其在高等教育科学领域的自动提取通用管道

BriefGPT - AI 论文速递 ·

随着人工智能的发展，大语言模型在研究生级别科学推理中的能力受到关注。OpenAI的新模型o1在科学推理基准测试中表现出色。为评估中文大模型，推出了SuperCLUE-Science基准，涵盖物理、化学和生物等领域，旨在提供全面、客观和具有挑战性的评估，为未来模型开发提供参考。

「科学推理」中文基准测评（SuperCLUE-Science）方案发布

HyperAI超神经 ·

推理水平对标OpenAI o1！阿里云通义开源最新推理模型QwQ

机器之心 ·

本文回顾并发展了科学哲学中的收敛主义，探讨如何根据趋向真理的能力评估推理方法，并分析了解释主义、工具主义和贝叶斯主义等理论。研究表明，收敛主义为科学推理提供了新的评估标准，具有重要理论价值。

本文介绍了通过引入可扩展工具集和开发SciAgent，提升大型语言模型（LLMs）在科学推理中的能力。构建了包含30,000个样本和6,000个工具的训练语料库，并通过SciToolBench基准测试验证了SciAgent的有效性，特别是SciAgent-Mistral-7B在准确率上优于其他同类模型。此外，提出了CACA Agent和ConAgents框架，增强了AI代理的规划能力和工具使用效率。

CACTUS: 化学代理连接工具的使用与科学

BriefGPT - AI 论文速递 ·

智能体生物学将重走软件路：数据分析先于推理自主

GPT-5全面领先，OpenAI发布FrontierScience，「推理+科研」双轨检验大模型能力

HLE首次突破60分！Eigen-1基于DeepSeek V3.1领先GPT-5

软件测试的逻辑、哲学与科学：开发者手册

MatterChat: A Multi-Modal Large Language Model for Material Science

Perovskite - Knowledge-Enhanced Large Language Models for Perovskite Solar Cell Research

Multimodal Large Language Models Can Significantly Advance Scientific Reasoning

SCP-116K：一个高质量的题-解数据集及其在高等教育科学领域的自动提取通用管道

「科学推理」中文基准测评（SuperCLUE-Science）方案发布

推理水平对标OpenAI o1！阿里云通义开源最新推理模型QwQ

Convergence Towards Truth

CACTUS: 化学代理连接工具的使用与科学