Skip to main content

[NeurIPS 2020] Denoising Diffusion Probabilistic Models

数学原理(Mathematical Preliminary)

先验概率与后验概率

条件概率的定义

条件概率是指在给定另一个事件发生的条件下,某一事件发生的概率。条件概率通常用符号P(AB)P(A\mid B)表示,读作“在 B 发生的条件下 A 发生的概率”。

条件概率的计算公式为:

P(AB)=P(A,B)P(B)P(A\mid B)=\frac{P(A,B)}{P(B)}

其中:

  • P(A,B)P(A,B)是事件AABB同时发生的概率,也叫联合概率
  • P(B)P(B)是事件BB独立发生的概率

全概率公式

对于事件AA而言,假设有一组互斥且穷尽的条件事件B1,B2,BnB_{1},B_{2},\ldots B_{n}构成一个完备事件组,则事件AA的概率等于事件AA在每个条件事件BiB_i下发生的概率与该条件事件发生概率的乘积和。

P(A)=i=1nP(ABi)P(Bi)P(A)=\sum_{i=1}^nP(A\mid B_i)\cdot P(B_i)

可以看出,全概率公式是由“因”(条件事件BiB_i)推“果”(结果事件AA)的过程,即当知道某结果事件的原因后,推断由该原因导致这件事发生的概率是多少。

贝叶斯公式

贝叶斯公式在观测到结果事件AA发生后,计算其条件事件BiB_i在事件AA已经发生的条件下而发生的后验概率。

继续沿用上述全概率公式的符号定义,则有:

P(BiA)=P(ABi)P(Bi)P(A)P(B_i\mid A)=\frac{P(A\mid B_i)\cdot P(B_i)}{P(A)}

其中:

  • P(Bi)P(B_i)以及P(A)P(A)称为先验概率
  • P(BiA)P(B_i\mid A)称为后验概率
  • P(ABi)P(A\mid B_i)称为似然

条件概率与高斯分布的KL散度

条件概率的一般形式

P(A,B,C)=P(CA,B)P(A,B)=P(CA,B)P(BA)P(A)P(A,B,C)=P(C\mid A,B)\cdot P(A,B)=P(C\mid A,B)\cdot P(B\mid A)\cdot P(A) P(B,CA)=P(BA)P(CA,B)P(B,C\mid A)=P(B\mid A)\cdot P(C\mid A,B)

其中,第二行公式的推导如下:

P(B,CA)=P(A,B,C)P(A)=P(A,B,C)P(A,B,C)P(CA,B)P(BA)=P(BA)P(CA,B)\begin{align*} P(B,C \mid A) &= \frac{P(A,B,C)}{P(A)} \\ &= \frac{P(A,B,C)}{\frac{P(A,B,C)}{P(C \mid A,B) \cdot P(B \mid A)}} \\ &= P(B \mid A) \cdot P(C \mid A,B) \end{align*}

高斯分布的KL散度

对于两个单一变量的高斯分布pN(μ1,σ12)p\sim \mathcal{N}(\mu_1,\sigma_1^2)qN(μ2,σ22)q\sim \mathcal{N}(\mu_2,\sigma_2^2)而言,它们的KL散度定义为:

DKL(p,q)=logσ2σ1+σ12+(μ1μ2)22σ2212D_{KL}(p,q)=\log\frac{\sigma_2}{\sigma_1}+\frac{\sigma_1^2+(\mu_1-\mu_2)^2}{2\sigma_2^2}-\frac12

马尔科夫链条件概率形式

马尔科夫链指当前状态的概率只与上一时刻有关,例如若满足马尔科夫关系ABCA\to B\to C,则有:

P(A,B,C)=P(CA,B)P(A,B)=P(CB)P(BA)P(A)P(A,B,C) =P(C\mid A,B)\cdot P(A,B)=P(C\mid B)\cdot P(B\mid A)\cdot P(A) P(B,CA)=P(BA)P(CB)P(B,C\mid A)=P(B\mid A)\cdot P(C\mid B)

参数重整化技巧

从任意高斯分布N(μ,σ2)\mathcal{N}(\mu,\sigma^2)采样xx时,可以先从标准高斯分布N(0,1)\mathcal{N}(0,1)中sample出zz,再令

x=σz+μx=\sigma * z + \mu

优势:

  1. 由于线性变化,采样过程中对其他参数都有明确的导数,可以进行反向传播
  2. 可以通过线性变换控制参数化的采样
  3. 标准正态分布具有易采样的性质