数据科学的三个基础常识

💡 原文中文,约1100字,阅读约需3分钟。
📝

内容提要

本文介绍了数据科学家需要了解的三个观点:相关性与因果关系的区别、只能从数据中学习P(A|B)、科学实验的有效性。科学实验能捕捉因果信息,而大多数社会数据则无法做到这一点。

🎯

关键要点

  • 数据科学家需要理解相关性与因果关系的区别。
  • P(A | B) 表示在 B 的情况下 A 的概率,而 P(A | do(B)) 表示在干预 B 的情况下 A 的概率。
  • 我们只能从数据中学习 P(A | B),而无法得知干预的效果。
  • 科学实验通过随机对照试验能够有效捕捉因果信息。
  • 大多数社会数据无法提供因果关系的信息,统计算法只能学习 P(A | B)。
➡️

继续阅读