小红花·文摘

大数据成矿预测系列(八) | 从定性到概率：逻辑回归——地质统计学派的“集大成者”

Seraphineの小窝 ·

迈克尔·克里斯托菲德斯：利用pg_stat_statements近似查询的p99性能

Planet PostgreSQL ·

地球化学数据分析中，封闭效应导致成分数据伪相关性。传统统计方法未考虑这一约束，可能产生误导。为解决此问题，提出了加性对数比变换、中心化对数比变换和等距对数比变换等方法，以便用常规统计分析处理成分数据。

大型语言模型输出中的偏见检测：统计方法

MachineLearningMastery.com ·

本文研究序列变点分析中的一个重要挑战：在检测到变化后进行推断。通过构建未知变点的置信区间，提供了理论合理且实用的序列变点定位工具。

Post-detection Inference for Sequential Changepoint Localization

BriefGPT - AI 论文速递 ·

本研究分析了经验软件工程中统计方法的错误应用及专家识别能力不足的问题。通过对近三十年文献的调查，发现现有方法存在显著统计问题，呼吁对统计方法进行深入研究与改革，以确保研究结果的可信性和方法的严谨性。

A Call for Critical Rethinking and Reform of Data Analysis in Empirical Software Engineering

BriefGPT - AI 论文速递 ·

小数据集的5种创新统计方法

KDnuggets ·

本研究提出了一种适用于任何数据集的自动评估和修复数据质量问题的框架。通过结合统计方法和机器学习，确保了过程的可解释性和准确性，有效检测和修正缺失值、重复数据和拼写错误，推动了自动化数据质量评估的发展。

Towards Explainable Automated Data Quality Enhancement without Domain Knowledge

BriefGPT - AI 论文速递 ·

这篇文章介绍了数据科学中常用的15种统计方法，包括描述统计、概率分布、假设检验、回归分析、相关性和协方差、中心极限定理、贝叶斯统计、方差分析、时间序列分析、主成分分析、卡方检验、K均值聚类、马尔可夫链和蒙特卡洛模拟。这些方法对于数据科学家来说非常重要，可以帮助他们从数据中提取有意义的洞察、测试假设和建立预测模型。

数据科学中的15种顶级统计方法：附示例的完整指南

DEV Community ·

数据可视化在数据科学中至关重要。使用统计方法可以提高可视化的清晰度、准确性和效果。文章介绍了几种常用的统计可视化技术，包括直方图、箱线图、散点图、热力图、小提琴图、柱状图和线图。通过参加数据科学课程，可以学习和掌握这些技术，提升数据科学和数据可视化的能力。

数据可视化技术：提升数据科学洞察力的统计方法

DEV Community ·

数据分析是将原始数据转化为有意义见解的过程，包含数据检查、清洗、转换和建模。主要步骤包括问题定义、数据收集、数据准备、探索性数据分析、数据分析、结果解释和决策制定。数据分析类型有描述性分析、推断性分析、预测性分析和规范性分析，广泛应用于医疗、金融和市场营销等领域，依赖于统计方法和先进技术，如机器学习和数据挖掘。

数据分析终极指南

DEV Community ·

该文章介绍了多种基于统计和深度学习的文本分割方法，适用于不同语言和领域。研究涵盖无监督和有监督学习，提出了利用视觉知识和无标点文本进行句子分割的新技术，显著提高了分割的准确性和效率。

分句：不失连贯地打开引号

BriefGPT - AI 论文速递 ·

本文深入分析了Linux统计系统CPU利用率的内部原理，通过定时器以固定节拍采样各个CPU核的使用情况，并将时间累加到不同的统计项中。top命令读取/proc/stat中的输出数据，这些数据是根据kernel_cpustat变量汇总并输出的。文章还解释了用户态、内核态和空闲时间的统计方法。总体而言，Linux的CPU利用率统计方法是基于采样的，虽然不是百分之百精确，但对于整体情况的评估是可靠的。

本文介绍了一种新颖的零样本医学信息检索方法MedFusionRank，它结合了预训练语言模型和统计方法的优势，并利用预训练的BERT风格模型提取关键词，再通过将这些关键词与医学知识图中的概念实体链接，进一步丰富其领域知识。实验评估表明，MedFusionRank相比现有方法表现优越，在多种评估指标上具有有希望的结果。即使是来自于短查询或单个术语，MedFusionRank在检索相关信息方面表现出有效性。