本章探讨智能代理在复杂环境中主动探索新信息和未知因素的重要性。通过多代理框架,代理能够生成假设、设计实验并推动创新,从而提高科学研究的效率。
本研究探讨大型语言模型在生物医学假设生成中的可靠性,重点评估假设的真实性和幻觉现象。提出了TruthHypo基准和KnowHD检测器,以系统评估模型生成假设的准确性。研究发现,LLMs在生成真实假设方面存在挑战,但KnowHD能够有效过滤真实假设,促进科学发现。
NEXA-MOE是一种高效的混合专家模型,参数仅1.1亿,能够在物理、生物和材料科学领域进行假设生成和方法设计。其模块化架构通过智能路由优化资源使用,在有限硬件上实现卓越性能,展示了在资源受限环境中构建高效AI系统的可能性。
本研究提出了IRIS互动研究构思系统,通过人机互动与蒙特卡洛树搜索等方法,提升研究人员生成新假设的控制力和洞察力,显著增强研究构思效果。
本文探讨了假设生成的关键问题,提出了HypoBench基准以评估大语言模型的假设生成能力。研究发现,现有方法能够识别有效模式,但在合成数据集上的表现仍需改进,为人工智能在科学发现中的应用提供了资源。
该研究提出了MicroVQA基准,评估科学研究中专家的图像理解和假设生成能力。通过1042道多项选择题,揭示了现有语言模型在多模态推理中的不足,强调感知错误是主要挑战,为AI驱动的生物医学研究提供了重要资源。
谷歌推出AI共同科学家系统,旨在协助科学家生成假设和研究提案。该系统基于Gemini 2.0,模拟科学方法,促进人机合作。已在生物医学领域测试,显示潜力,但需改进文献审查和事实核查。社区反应不一,部分人赞赏其加速研究能力,另一些人质疑其创新性。谷歌邀请研究机构参与测试计划,以评估系统优缺点。
MOOSE-Chem研究表明,大语言模型(LLMs)能够在化学领域自动发现新假设,并重新发现已发表的顶级假设。该框架结合文献检索、假设生成和排序,利用认知科学理论,提高假设质量,促进科学发现。
本研究提出了一种新方法,将文献洞察与数据结合,利用大型语言模型生成假设,实验证明其优于传统方法,并提高了人类判断的准确率,为假设生成提供了新框架。
通过收集50篇社会科学顶级期刊最新发表的论文构建了一个自然语言处理数据集,旨在开发一个系统,能够仅凭原始网页文集生成有效、新颖且对社会科学研究人员有帮助的假设。该框架在GPT-4和社会科学专家评估方面表现出较高的性能。
完成下面两步后,将自动完成登录并继续当前操作。