💡
原文中文,约2000字,阅读约需5分钟。
📝
内容提要
本文研究了数据科学家如何通过分析计算笔记本迭代地从数据中获得见解。研究者构建了数据科学计算笔记本数据集,通过量化指标和定性分析等方法,探索了意义构建的模式与用户在探索和解释之间的进程中所处的位置的关系。作者还讨论了数据科学工具设计的启示。
🎯
关键要点
- 意义建构是从数据中识别、提取和解释见解的迭代过程,称为“意义建构循环”。
- 数据科学家通过迭代代码、可视化和注释来更好地理解数据,计算笔记本是常用工具。
- 研究者探讨如何重新设计计算笔记本,以支持用户的意义构建过程。
- 研究调查了数据科学家如何通过分析计算笔记本获得见解,揭示了意义建构的模式与用户探索和解释之间的关系。
- 构建了数据科学计算笔记本数据集,从github中随机抽样400,000个笔记本,最终筛选出2574个符合条件的笔记本。
- 设置了探索-解释分数来量化笔记本中的意义建构,分数低于0.6表示探索性分析,高于0.5表示提供了更多见解。
- 使用回归模型预测每个笔记本的探索-解释分数,并将笔记本分为四组进行定性分析。
- 发现了四种模式:探索-解释、解释-解释、探索-探索和解释-探索,揭示了数据科学家的不同分析路径。
- 讨论了数据科学工具设计的启示,包括生成相关推荐和跟踪多个分析路径。
- 研究的不足之处在于只关注初始和最新版本的整体趋势,未对版本分数的起伏进行深入分析。
➡️