[NeurIPS 2020] Denoising Diffusion Probabilistic Models
数学原理(Mathematical Preliminary)
先验概率与后验概率
条件概率的定义
条件概率是指在给定另一个事件发生的条件下,某一事件发生的概率。条件概率通常用符号P(A∣B)表示,读作“在 B 发生的条件下 A 发生的概率”。
条件概率的计算公式为:
P(A∣B)=P(B)P(A,B)
其中:
- P(A,B)是事件A、B同时发生的概率,也叫联合概率
- P(B)是事件B独立发生的概率
全概率公式
对于事件A而言,假设有一组互斥且穷尽的条件事件B1,B2,…Bn构成一个完备事件组,则事件A的概率等于事件A在每个条件事件Bi下发生的概率与该条件事件发生概率的乘积和。
P(A)=i=1∑nP(A∣Bi)⋅P(Bi)
可以看出,全概率公式是由“因”(条件事件Bi)推“果”(结果事件A)的过程,即当知道某结果事件的原因后,推断由该原因导致这件事发生的概率是多少。
贝叶斯公式
贝叶斯公式在观测到结果事件A发生后,计算其条件事件Bi在事件A已经发生的条件下而发生的后验概率。
继续沿用上述全概率公式的符号定义,则有:
P(Bi∣A)=P(A)P(A∣Bi)⋅P(Bi)
其中:
- P(Bi)以及P(A)称为先验概率
- P(Bi∣A)称为后验概率
- P(A∣Bi)称为似然
条件概率与高斯分布的KL散度
条件概率的一般形式
P(A,B,C)=P(C∣A,B)⋅P(A,B)=P(C∣A,B)⋅P(B∣A)⋅P(A)
P(B,C∣A)=P(B∣A)⋅P(C∣A,B)
其中,第二行公式的推导如下:
P(B,C∣A)=P(A)P(A,B,C)=P(C∣A,B)⋅P(B∣A)P(A,B,C)P(A,B,C)=P(B∣A)⋅P(C∣A,B)
高斯分布的KL散度
对于两个单一变量的高斯分布p∼N(μ1,σ12)和q∼N(μ2,σ22)而言,它们的KL散度定义为:
DKL(p,q)=logσ1σ2+2σ22σ12+(μ1−μ2)2−21
马尔科夫链条件概率形式
马尔科夫链指 当前状态的概率只与上一时刻有关,例如若满足马尔科夫关系A→B→C,则有:
P(A,B,C)=P(C∣A,B)⋅P(A,B)=P(C∣B)⋅P(B∣A)⋅P(A)
P(B,C∣A)=P(B∣A)⋅P(C∣B)
参数重整化技巧
从任意高斯分布N(μ,σ2)采样x时,可以先从标准高斯分布N(0,1)中sample出z,再令
x=σ∗z+μ
优势:
- 由于线性变化,采样过程中对其他参数都有明确的导数,可以进行反向传播
- 可以通过线性变换来控制参数化的采样
- 标准正态分布具有易采样的性质