Lei Mao's Log Book ·

重新参数化技巧

💡 原文英文，约1500词，阅读约需6分钟。

📝

内容提要

本文介绍了在神经网络编码潜在变量的有向概率图模型中，模型优化常遇到的问题：采样函数对生成潜在变量样本的参数不可微分。为了解决这个问题，提出了重新参数化技巧，通过将随机变量以确定性方式转换，使得采样函数对生成样本的参数可微分。文章详细介绍了有向概率图模型的定义、学习模型参数的方法、不可微分采样函数的问题以及重新参数化技巧的原理和应用。

🎯

关键要点

在有向概率图模型中，神经网络编码潜在变量时，模型优化常遇到采样函数不可微分的问题。
重新参数化技巧用于使采样函数对生成样本的参数可微分。
有向概率图模型（贝叶斯网络）通过有向无环图表示随机变量及其条件依赖关系。
学习有向概率图模型的参数通常需要计算潜在变量的后验分布的估计。
计算估计的方法有封闭形式解和蒙特卡洛方法，但封闭形式解有时不可行。
当使用采样估计后验分布时，如果采样函数不可微分，则无法计算参数的梯度。
重新参数化技巧通过确定性方式转换随机变量，使得采样函数可微分。
通过变量变换的概率密度函数关系，可以构造满足所需分布的变量变换。
单变量正态分布的例子中，通过标准正态分布构造所需的正态分布。
多变量正态分布的例子中，通过Cholesky分解构造满足所需分布的变换。

❓

延伸问答

什么是重新参数化技巧？

重新参数化技巧是一种将随机变量以确定性方式转换的方法，使得采样函数对生成样本的参数可微分。

有向概率图模型的定义是什么？

有向概率图模型，也称为贝叶斯网络，是通过有向无环图表示随机变量及其条件依赖关系的概率图模型。

在学习有向概率图模型参数时常用的方法有哪些？

学习有向概率图模型参数的方法通常包括封闭形式解和蒙特卡洛方法。

为什么采样函数不可微分会影响模型优化？

如果采样函数不可微分，则无法计算生成样本的参数的梯度，从而影响模型的优化过程。

如何通过变量变换构造满足所需分布的随机变量？

通过变量变换的概率密度函数关系，可以构造满足所需分布的变量变换，确保原始随机变量和变换后的随机变量属于同一分布族。

单变量正态分布的重新参数化示例是什么？

单变量正态分布的重新参数化示例是通过标准正态分布构造所需的正态分布，变换为X = μ + σZ。

🏷️