小红花·文摘 - 小红花技术领袖俱乐部

DeepMind两天破解教授十年难题，科学家直呼不信但真香

DeepMind两天破解教授十年难题，科学家直呼不信但真香

极道 ·

Agent设计模式——第 21 章：探索和发现

Agent设计模式——第 21 章：探索和发现

XINDOO的博客 ·

本研究探讨大型语言模型在生物医学假设生成中的可靠性，重点评估假设的真实性和幻觉现象。提出了TruthHypo基准和KnowHD检测器，以系统评估模型生成假设的准确性。研究发现，LLMs在生成真实假设方面存在挑战，但KnowHD能够有效过滤真实假设，促进科学发现。

Toward Reliable Biomedical Hypothesis Generation: Evaluating Truthfulness and Hallucination in Large Language Models

BriefGPT - AI 论文速递 ·

NEXA-MOE：一种高效强大的AI，用于在资源紧张的情况下进行科学发现

NEXA-MOE：一种高效强大的AI，用于在资源紧张的情况下进行科学发现

DEV Community ·

本研究提出了IRIS互动研究构思系统，通过人机互动与蒙特卡洛树搜索等方法，提升研究人员生成新假设的控制力和洞察力，显著增强研究构思效果。

IRIS：加速科学发现的互动研究构思系统

BriefGPT - AI 论文速递 ·

本文探讨了假设生成的关键问题，提出了HypoBench基准以评估大语言模型的假设生成能力。研究发现，现有方法能够识别有效模式，但在合成数据集上的表现仍需改进，为人工智能在科学发现中的应用提供了资源。

HypoBench：系统化和原则性的假设生成基准评估

BriefGPT - AI 论文速递 ·

该研究提出了MicroVQA基准，评估科学研究中专家的图像理解和假设生成能力。通过1042道多项选择题，揭示了现有语言模型在多模态推理中的不足，强调感知错误是主要挑战，为AI驱动的生物医学研究提供了重要资源。

MicroVQA：基于显微镜的科学研究多模态推理基准

BriefGPT - AI 论文速递 ·

谷歌推出AI共同科学家系统以助力科学研究

谷歌推出AI共同科学家系统以助力科学研究

InfoQ ·

Can LLMs Independently Discover Scientific Hypotheses Published in Nature? In-Depth Analysis of the ICLR 2025 Paper MOOSE-Chem

Can LLMs Independently Discover Scientific Hypotheses Published in Nature? In-Depth Analysis of the ICLR 2025 Paper MOOSE-Chem

机器之心 ·

本研究提出了一种新方法，将文献洞察与数据结合，利用大型语言模型生成假设，实验证明其优于传统方法，并提高了人类判断的准确率，为假设生成提供了新框架。

文献与数据结合：假设生成的协同方法

BriefGPT - AI 论文速递 ·

通过收集50篇社会科学顶级期刊最新发表的论文构建了一个自然语言处理数据集，旨在开发一个系统，能够仅凭原始网页文集生成有效、新颖且对社会科学研究人员有帮助的假设。该框架在GPT-4和社会科学专家评估方面表现出较高的性能。

自动化开放领域科学假设发现的大型语言模型

BriefGPT - AI 论文速递 ·