小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI
GPT-5全面领先,OpenAI发布FrontierScience,「推理+科研」双轨检验大模型能力

OpenAI推出FrontierScience基准测试,评估AI在科学推理和研究中的能力。GPT-5.2表现优异,但在复杂科研任务上仍有不足。该测试强调原创性和专家参与,为AI改进提供新参考。

GPT-5全面领先,OpenAI发布FrontierScience,「推理+科研」双轨检验大模型能力

HyperAI超神经
HyperAI超神经 · 2025-12-18T07:08:42Z

Eigen-1系统在HLE测试中首次突破60分,Pass@1准确率为48.3%,Pass@5为61.74%。该系统基于开源DeepSeek V3.1,采用隐式知识增强、分层解决方案精炼和质量感知迭代推理三大创新机制,显著提升了AI的科学推理能力。

HLE首次突破60分!Eigen-1基于DeepSeek V3.1领先GPT-5

量子位
量子位 · 2025-09-29T00:30:09Z
软件测试的逻辑、哲学与科学:开发者手册

在信息过载和技术快速变革的时代,清晰思考和合理推理至关重要。本手册涵盖逻辑基础、软件开发、科学推理和批判性思维的实际应用,提供可靠的思维工具,适合学生和专业人士。内容包括逻辑理论、实际应用和哲学深度,旨在提升读者的逻辑思维能力。

软件测试的逻辑、哲学与科学:开发者手册

freeCodeCamp.org
freeCodeCamp.org · 2025-06-17T18:43:38Z

本研究提出了多模态大型语言模型MatterChat,旨在解决无机材料性质理解与预测的挑战。该模型结合材料结构数据与文本信息,显著提升了材料性质预测性能,超越了通用模型如GPT-4,展现了在科学推理和材料合成中的潜在价值。

MatterChat: A Multi-Modal Large Language Model for Material Science

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-02-18T00:00:00Z

本研究提出了一种知识增强系统,结合知识图谱、问答对和大型语言模型,显著提升了钙钛矿太阳能电池领域的知识检索和科学推理效果,对研究人员的文献回顾和实验设计具有重要影响。

Perovskite - Knowledge-Enhanced Large Language Models for Perovskite Solar Cell Research

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-02-18T00:00:00Z

本研究提出了一个四阶段的研究路线图,旨在解决现有科学推理模型在跨领域泛化和多模态感知方面的不足,强调大规模语言模型在整合和推理不同数据类型中的能力,为实现人工通用智能提供新的视角。

Multimodal Large Language Models Can Significantly Advance Scientific Reasoning

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-02-05T00:00:00Z

本研究提出了SCP-116K数据集,包含116,756对高质量题-解,旨在解决高等教育科学领域缺乏优质数据集的问题。该数据集通过高效的自动提取管道,确保材料的科学性和教育水平,促进科学推理研究和高级科学推理任务的发展。

SCP-116K:一个高质量的题-解数据集及其在高等教育科学领域的自动提取通用管道

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-01-26T00:00:00Z

随着人工智能的发展,大语言模型在研究生级别科学推理中的能力受到关注。OpenAI的新模型o1在科学推理基准测试中表现出色。为评估中文大模型,推出了SuperCLUE-Science基准,涵盖物理、化学和生物等领域,旨在提供全面、客观和具有挑战性的评估,为未来模型开发提供参考。

「科学推理」中文基准测评(SuperCLUE-Science)方案发布

HyperAI超神经
HyperAI超神经 · 2025-01-06T03:10:20Z
推理水平对标OpenAI o1!阿里云通义开源最新推理模型QwQ

阿里云通义团队于11月28日发布了开源AI推理模型QwQ-32B-Preview,该模型在数学和编程方面表现优异,具备研究生水平的科学推理能力,并在多个评测中取得高分,展现出深度自省能力。尽管存在一些局限性,开发者对其表现给予高度评价,认为这是开源领域的重要突破。

推理水平对标OpenAI o1!阿里云通义开源最新推理模型QwQ

机器之心
机器之心 · 2024-11-28T09:31:30Z

本文回顾并发展了科学哲学中的收敛主义,探讨如何根据趋向真理的能力评估推理方法,并分析了解释主义、工具主义和贝叶斯主义等理论。研究表明,收敛主义为科学推理提供了新的评估标准,具有重要理论价值。

趋向真理的收敛性

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-10-15T00:00:00Z

通过引入可扩展工具集,研究从全知问题解决转向使用专业工具,提升LLMs的科学推理能力。开发了MathFunc工具和SciAgent,用于科学问题的工具检索和使用。通过SciToolBench评估,SciAgent表现优异,特别是SciAgent-Mistral-7B和SciAgent-DeepMath-7B的性能超过同类模型。

ScienceAgentBench:迈向对语言智能体在数据驱动科学发现中的严格评估

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-10-07T00:00:00Z
  • <<
  • <
  • 1 (current)
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
友情链接: MOGE.AI 九胧科技 模力方舟 Gitee AI 菜鸟教程 Remio.AI DeekSeek连连 53AI 神龙海外代理IP IPIPGO全球代理IP 东波哥的博客 匡优考试在线考试系统 开源服务指南 蓝莺IM Solo 独立开发者社区 AI酷站导航 极客Fun 我爱水煮鱼 周报生成器 He3.app 简单简历 白鲸出海 T沙龙 职友集 TechParty 蟒周刊 Best AI Music Generator

小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码