小红花·文摘 - 小红花技术领袖俱乐部

LLM平台的产品实验：当用户随机化打破市场均衡时的切换实验设计（Python）

LLM平台的产品实验：当用户随机化打破市场均衡时的切换实验设计（Python）

freeCodeCamp.org ·

当AI开始做研究，人类科学家还剩下什么？清华团队打造AgentSociety²人机协同研究环境

当AI开始做研究，人类科学家还剩下什么？清华团队打造AgentSociety²人机协同研究环境

HyperAI超神经 ·

在FAANG公司面试中，考官重视候选人的数据分析能力，特别是识别统计陷阱，如辛普森悖论、选择偏差、p-hacking、多重测试和混杂变量。候选人需质疑数据来源、分组及实验设计，以避免错误决策。

FAANG面试中最常见的统计陷阱

KDnuggets ·

BED-LLM：基于贝叶斯实验设计的大型语言模型智能信息收集

BED-LLM：基于贝叶斯实验设计的大型语言模型智能信息收集

Apple Machine Learning Research ·

【原理到实战】实验异质性分析

【原理到实战】实验异质性分析

京东科技开发者 ·

数据科学面试的隐性课程：公司真正考察的内容

数据科学面试的隐性课程：公司真正考察的内容

KDnuggets ·

Agent设计模式——第 21 章：探索和发现

Agent设计模式——第 21 章：探索和发现

XINDOO的博客 ·

Virtuous Machines AI系统花费17小时和114美元完成了一篇30页的认知心理学论文，涵盖实验设计和数据分析，符合APA格式。该系统通过模拟人类认知机制自动化科研过程，尽管效率高，但在理论深度和创新思维上仍显不足。

AI花17小时写了篇30页论文！自主选题，包含实验，还符合APA格式

量子位 ·

可信实验白皮书系列08：开放式分析引擎 | 附PDF合集

美团技术团队 ·

机器之心数据服务现已上线，提供高效稳定的数据获取服务，帮助用户轻松获取所需数据。

怪异却奏效的实验设计，AI：我寻思这样可行

机器之心 ·

如何更高效地研究复杂治疗相互作用

如何更高效地研究复杂治疗相互作用

MIT News - Artificial intelligence ·

基于 Amazon Q Developer CLI 进行智能混沌工程实验

基于 Amazon Q Developer CLI 进行智能混沌工程实验

亚马逊AWS官方博客 ·

苹果团队的研究引发了关于大模型推理崩溃的讨论。最初认为高复杂度任务导致崩溃，后续文章则指出是实验设计问题。最新研究确认，尽管修正了测试设计，模型在长推理和复杂任务中仍存在追踪能力不足的问题。

大模型参与推理崩溃论战！从「思维错觉」到「错觉的错觉」再到「错觉的错觉的错觉」

量子位 ·

本研究利用轻量级随机结构神经网络和保形分位回归，解决科学成像中高质量数据获取时间长和噪声增加的问题。该方法有效去噪，揭示可解释的空间和化学特征，支持资源受限情况下的实验设计。

Behind the Noise: Conformal Quantile Regression Reveals Emergent Representations

BriefGPT - AI 论文速递 ·

本研究分析了大型语言模型（LLM）在网络安全渗透测试工具中的评估方法，提出了改进的研究方法，包括扩展测试平台和完善分析指标。研究表明，现有CTF挑战未能全面反映真实的渗透测试场景。

基于大型语言模型的进攻性安全基准实践：测试平台、指标与实验设计

BriefGPT - AI 论文速递 ·

本研究提出了一种基于强化学习的动态角度选择方法，以满足工业X射线CT快速在线检测的需求。通过动态最优停止和序贯最优实验设计的引入，提升了CT操作的灵活性和适用性。

Application of Dynamic Angle Selection in X-Ray CT: An Optimal Stopping Method Based on Reinforcement Learning

BriefGPT - AI 论文速递 ·

本研究评估了Sakana.ai的AI科学家在自主研究中的能力，探讨其是否能实现人工通用研究智能（AGRI）。尽管在研究自动化方面有所进展，但在文献综述和实验可靠性上仍存在不足，用户需参与实验设计，限制了其自主性。学术界和AI社区需对此进行紧急讨论。

对Sakana.ai自主研究AI科学家的评估：美好的愿望还是朝向“人工通用研究智能”（AGRI）的新现实？

BriefGPT - AI 论文速递 ·

本研究通过游戏Codenames评估大型语言模型的语言和认知能力，设计实验控制词语选择和对手速度，以揭示LLMs的策略、挑战和局限性。

Evaluating the Emergent Concept Formation of Large Language Models through the Game Codenames

BriefGPT - AI 论文速递 ·

本研究提出了一种蒸馏规模法则，以解决大规模蒸馏模型的性能估计问题。合理的资源分配显著提升了学生模型的性能，并提供了优化蒸馏的方案，促进了实验设计与蒸馏过程的理解。

Distillation Scale Law

BriefGPT - AI 论文速递 ·

本文解决了大规模语言模型（LLM）在科学模型提出、实验数据收集及基于新数据修订模型方面缺乏系统性基准的问题。提出的BoxingGym基准通过10个环境对实验设计与模型发现进行系统评估，并发现当前的LLM在这两个领域的表现均不佳，增强LLM-agent与显式统计模型的结合并未有效改善其结果。

BoxingGym: 自动实验设计与模型发现的基准进展

BriefGPT - AI 论文速递 ·