[NeurIPS 2020] Denoising Diffusion Probabilistic Models
数学原理(Mathematical Preliminary)
先验概率与后验概率
条件概率的定义
条件概率是指在给定另一个事件发生的条件下,某一事件发生的概率。条件概率通常用符号P(A∣B)表示,读作“在 B 发生的条件下 A 发生的概率”。
条件概率的计算公式为:
P(A∣B)=P(B)P(A,B)
其中:
- P(A,B)是事 件A、B同时发生的概率,也叫联合概率
- P(B)是事件B独立发生的概率
全概率公式
对于事件A而言,假设有一组互斥且穷尽的条件事件B1,B2,…Bn构成一个完备事件组,则事件A的概率等于事件A在每个条件事件Bi下发生的概率与该条件事件发生概率的乘积和。
P(A)=i=1∑nP(A∣Bi)⋅P(Bi)
可以看出,全概率公式是由“因”(条件事件Bi)推“果”(结果事件A)的过程,即当知道某结果事件的原因后,推断由该原因导致这件事发生的概率是多少。
贝叶斯公式
贝叶斯公式在观测到结果事件A发生后,计算其条件事件Bi在事件A已经发生的条件下而发生的后验概率。
继续沿用上述全概率公式的符号定义,则有:
P(Bi∣A)=P(A)P(A∣Bi)⋅P(Bi)
其中:
- P(Bi)以及P(A)称为先验概率
- P(Bi∣A)称为后验概率
- P(A∣Bi)称为似然
条件概率与高斯分布的KL散度
条件概率的一般形式
P(A,B,C)=P(C∣A,B)⋅P(A,B)=P(C∣A,B)⋅P(B∣A)⋅P(A)
P(B,C∣A)=P(B∣A)⋅P(C∣A,B)
其中,第二行公式的推导如下:
P(B,C∣A)=P(A)P(A,B,C)=P(C∣A,B)⋅P(B∣A)P(A,B,C)P(A,B,C)=P(B∣A)⋅P(C∣A,B)
高斯分布的KL散度
对于两个单一变量的高斯分布p∼N(μ1,σ12)和q∼N(μ2,σ22)而言,它们的KL散度定义为:
DKL(p,q)=logσ1σ2+2σ22σ12+(μ1−μ2