这篇文章介绍了数据科学中常用的15种统计方法,包括描述统计、概率分布、假设检验、回归分析、相关性和协方差、中心极限定理、贝叶斯统计、方差分析、时间序列分析、主成分分析、卡方检验、K均值聚类、马尔可夫链和蒙特卡洛模拟。这些方法对于数据科学家来说非常重要,可以帮助他们从数据中提取有意义的洞察、测试假设和建立预测模型。
很多人可能都觉得描述统计简单,就是加加减减算算平均值啥的。可是问题到了多元的环境下就大不一样了,一个严重的问题就是排序,由此导致最小值、最大值、中位数等统计量都不好定义。就拿二维变量来说,怎样确定散点图中的某个点是数据的中位数?或者更通俗地讲,谁是数据的中心?一维的时候没什么争议,从最小到最大数过去,中间位置那个就是中位数。 这个题目已经有些年代了,25年前一个叫Oja的家伙讨论过了这个问题...
完成下面两步后,将自动完成登录并继续当前操作。