范叶亮的博客 ·

文学编程和可重复性研究

💡 原文中文，约4900字，阅读约需12分钟。

📝

内容提要

文学编程是高德纳提出的一种编程方法，可以实现代码结果的可重复性动态生成，但需要关注系统环境和使用的数据。可以使用多系统兼容的软件、语言、扩展包，数据公开也很重要，可以通过数据脱敏、人造数据等方式解决。

🎯

关键要点

文学编程是高德纳提出的一种编程方法，旨在取代结构化编程。
文学编程允许程序员按照自己的逻辑和流程顺序开发程序，使用自然语言表达逻辑。
文学编程工具可以生成可编译的代码和格式化文档。
WEB、CWEB和noweb是文学编程的不同实现，支持不同编程语言。
Org Mode是Emacs的文本编辑模式，支持内容分级和代码块嵌入。
Sweave和knitr是R语言的文学编程实现，支持多种文档格式。
Jupyter是基于Python的交互式编程环境，支持多种编程语言。
Quarto是基于Pandoc的开源技术出版系统，旨在统一多种文档创建功能。
文学编程适合数据分析型工程，但在功能系统型工程中应用较难。
可重复性研究的范围更广，强调科学结果的透明记录。
可重复性研究需要关注代码的运行环境和使用的数据。
运行环境包括硬件、内核、操作系统和扩展包，都会影响研究结果。
数据公开在可重复性研究中至关重要，涉及隐私的数据需进行脱敏处理或使用人造数据。

🏷️

标签

可重复性数据公开数据脱敏文学编程系统环境

➡️

继续阅读

研究：糟糕的流媒体用户体验会削弱用户忠诚度
研究显示，36%的流媒体用户因糟糕的用户体验而取消订阅，尤其是年轻观众。报告强调改善用户体验的重要性，提出“继续观看”和“观看列表”功能能显著提升用户满意...
一项新研究揭穿了人们对AI和开源的最大担忧
北京大学的一项研究分析了1888个使用AI编码工具的GitHub项目，发现新贡献者参与率保持稳定，甚至略有上升。尽管AI生成的代码复杂性增加，但并未阻碍新...
开放模型如何推动人工智能研究
在国际机器学习大会上，NVIDIA的Nemotron开放模型和数据集成为145篇论文的基础，展示了开放模型在现代AI研究中的重要性。研究涵盖视觉生成、强化...
当编程变得不再有趣
文章讨论了作者在编程中对AI工具Fable 5的依赖，导致编程乐趣和成就感的减少。虽然Fable 5能快速解决问题，但作者意识到自己从“魔法师”变成了“祈...
AI Agent 存储选型：Curvine 如何在 EKS 上支撑万级Agent运行
本文介绍了Curvine如何在EKS上支持万级AI Agent的存储需求。随着AI基础设施向分布式模式转变，存储架构面临挑战。Curvine作为高性能分布...
腾讯开源模型混元HY3在OpenRouter限时免费调用有效期至7月21日
腾讯推出的开源模型HY3在OpenRouter平台上可免费调用至2026年7月21日。该模型参数规模为295B，采用MoE架构，支持多种推理模式，适用于编...