文学编程和可重复性研究

文学编程和可重复性研究

💡 原文中文,约4900字,阅读约需12分钟。
📝

内容提要

文学编程是高德纳提出的一种编程方法,可以实现代码结果的可重复性动态生成,但需要关注系统环境和使用的数据。可以使用多系统兼容的软件、语言、扩展包,数据公开也很重要,可以通过数据脱敏、人造数据等方式解决。

🎯

关键要点

  • 文学编程是高德纳提出的一种编程方法,旨在取代结构化编程。
  • 文学编程允许程序员按照自己的逻辑和流程顺序开发程序,使用自然语言表达逻辑。
  • 文学编程工具可以生成可编译的代码和格式化文档。
  • WEB、CWEB和noweb是文学编程的不同实现,支持不同编程语言。
  • Org Mode是Emacs的文本编辑模式,支持内容分级和代码块嵌入。
  • Sweave和knitr是R语言的文学编程实现,支持多种文档格式。
  • Jupyter是基于Python的交互式编程环境,支持多种编程语言。
  • Quarto是基于Pandoc的开源技术出版系统,旨在统一多种文档创建功能。
  • 文学编程适合数据分析型工程,但在功能系统型工程中应用较难。
  • 可重复性研究的范围更广,强调科学结果的透明记录。
  • 可重复性研究需要关注代码的运行环境和使用的数据。
  • 运行环境包括硬件、内核、操作系统和扩展包,都会影响研究结果。
  • 数据公开在可重复性研究中至关重要,涉及隐私的数据需进行脱敏处理或使用人造数据。
➡️

继续阅读