CV

[NeurIPS2020] Denoising Diffusion Probabilistic Models

最近看的论文需要用到DDPM和DDIM，没把两个都看完确实不太好理解，上周看懂了DDPM，所以打算先写一下，然后看完DDIM再写论文的汇报，原本昨天能写完来着，但是过程中发现了几个想不通的点想了很久，不得已拖到今天

前向过程

Diffusion具有前向和逆向两个过程，前向过程中，给定真实图像 $x_0\sim q(x)$ ，经过 $T$ 步添加噪声的过程，变成标准的高斯噪声。在这个过程中，每个时刻 $t$ 只与它的前一时刻 $t-1$ 有关，所以可以看作马尔可夫过程，也就是说，对于每一时刻都有

q(x_t|x_{t-1})=q(x_t|x_{0:t-1})

那么整个过程根据贝叶斯公式可以写成：

q(x_t|x_{t-1})=\mathcal N(x_t;\sqrt{1-\beta_t}x_{t-1},\beta_t \mathbf I),q(x_{1:T}|x_0)=\prod_{t=1}^{T}q(x_t|x_{t-1})

其中 $\beta_t$ 是设定好的超参数，那么整个加噪声的过程是确定的，根据公式

x_t=\sqrt{1-\beta_t}x_{t-1}+\beta_t\epsilon,\epsilon\sim \mathcal N(0,\mathbf I)

另 $\alpha_t=1-\beta_t$ ，且 $\bar \alpha_{t}=\prod_{s=1}^{t}\alpha_s$ ，经过递推可以获得

x_t=\sqrt{\bar \alpha_t}x_0+\sqrt{1-\bar\alpha_t}\bar\epsilon,\bar\epsilon\sim \mathcal N(0,\mathbf I)

根据这个公式，因为 $\alpha$ 都是确定的值，所以只要我们确定了 $\bar\epsilon$ ，那我们就能根据 $x_0$ 获得任意 $x_t$ ，并且 $x_0,x_t,,\bar\epsilon$ 三者只要知道其中两个就可推出第三个。而因为 $\alpha_t<0$ ，所以这个过程中 $t$ 越来越大， $x_t$ 越接近标准高斯噪声

关于为什么每一步中均值要乘上 $\sqrt{1-\beta_t}$ ，知乎专栏的作者是这样解释的

“一开始笔者一直不清楚为什么Eq(1)中diffusion的均值每次要乘上 $\sqrt{1-\beta_t}$ 。明明 $\beta_t$ 只是方差系数，怎么会影响均值呢？替换为任何一个新的超参数，保证它<1，也能够保证值域并且使得最后均值收敛到0（但是方差并不为1）. 然而通过Eq(3)(4)，可以发现当 $T\rightarrow ∞,x_t\sim \mathcal N(0,\mathbf I)$ 。所以 $\sqrt{1-\beta_t}$ 的均值系数能够稳定保证 $x_T$ 最后收敛到方差为1的标准高斯分布，且在Eq(4)的推导中也更为简洁优雅。（注:很遗憾，笔者并没有系统地学习过随机过程，也许 $\sqrt{1-\beta_t}$ 就是diffusion model前向过程收敛到标准高斯分布的唯一解，读者有了解也欢迎评论）”

关于这个解释我有个地方不太理解，为什么更换超参数后，均值收敛到0之后，方差并不为1，我的理解是，应该是方差不一定为1。我一开始也有所疑惑，为什么要让 $q(x_t|x_{t-1})$ 的分布的均值和方差分别为 $\sqrt{1-\beta_t}x_{t-1}$ 和 $\beta_t$ ，这个设定对于最终的目的而言并不是必须的，但是经过思考，我认为更好的解释是，它能够保证均值收敛为0和方差收敛为1，是同时达到的，如果更换其他超参数，两者必不可能同时达成，因为在实际计算过程中， $T$ 是可能无限大的，所以这样设置会使计算更加稳定，避免出现意料之外的问题。

逆向过程

前向过程是一个添加噪声的过程，它作为一个前提，认为图片已经经过了前向过程成为了标准高斯噪声，那么我们的目的就是从标准高斯分布中恢复出图片，即我们的逆向过程

逆向过程的推导十分复杂，罗列了各种乱七八糟的公式，一开始看的确实眼花缭乱，但是经过这两天的思考，发现它的本质并不复杂

首先我们先从标准高斯分布采样一个 $x_T$ ，我们希望获得 $q(x_{t-1}|x_t)$ 的分布，这样就可以一路回推回到 $x_0$ 。但是这个分布仅通过当前条件是不可知的，即只有 $x_t$ ，不知道 $x_{t-1}$ 推到 $x_t$ 时添加的噪声，是无法知道 $x_{t-1}$ 是多少的。所以我们用网络来模拟这个分布

p_{\theta}(x_{t-1}|x_t)=\mathcal N(x_t;\mu_{\theta}(x_t,t),\Sigma_{\theta}(x_t,t))

训练

网络的目标有了，我们要思考该怎么优化，在训练过程中，我们除了 $x_t$ ，还可以获得 $x_0$ ，因为 $x_0$ 推到 $x_t$ 的过程中所有参数都是已知的，那么通过两者是可以推出 $x_{t-1}$ 的，贝叶斯公式也可以证明并解出这个分布

q(x_{t-1}|x_t,x_0)=\mathcal N(x_{t-1};\tilde\mu_t(x_t,x_0),\tilde\beta_t \mathbf I)

其中

\tilde\mu_t(x_t,x_0)=\frac{\sqrt{\bar \alpha_{t-1}}\beta_t}{1-\bar\alpha_t}x_0+\frac{\sqrt{\bar\alpha_{t}}(1-\bar\alpha_{t-1})}{1-\bar\alpha_t}x_t,\tilde \beta_t=\frac{1-\bar\alpha_{t-1}}{1-\bar\alpha_t}\beta_t

我们发现，在采样过程也就是模型的使用时，该分布的均值和方差中，只有 $x_0$ 是未知的，也就是说我们只要使用网络去模拟 $x_0$ ，就可以获得与这个分布 $p_{\theta}(x_{t-1}|x_t,x_0)=\mathcal N(x_{t-1};\tilde\mu_t(x_t,x_0(x_t,t)),\tilde\beta_t \mathbf I)$ ，从而一步步推导出 $x_0$ 。这个思路只能用逆天来形容，为了使其看上去不那么逆天，我们使用之前获得的公式 $x_t=\sqrt{\bar \alpha_t}x_0+\sqrt{1-\bar\alpha_t}\bar\epsilon$ 来将 $x_0$ 替换成 $x_t,\bar\epsilon$

\tilde\mu_t(x_t,\bar\epsilon)=\frac{1}{\sqrt{\alpha_t}}(x_t-\frac{\beta_t}{\sqrt{1-\bar\alpha_t}}\bar\epsilon)

这样我们就可以用网络只去模拟 $\bar\epsilon$ 了，即

\mu_{\theta}(x_t,t)=\frac{1}{\sqrt{\alpha_t}}(x_t-\frac{\beta_t}{\sqrt{1-\bar\alpha_t}}\epsilon_{\theta}(x_t,t))

到此为止整个过程已经很清晰了，从 $x_t$ 推出 $x_{t-1}$ 只需要预测出 $\bar\epsilon$ 就行了，那么loss也就很好设计，计算 $\bar\epsilon$ 和 $\epsilon_{\theta}(x_t,t)$ 的MSE就行了

||\bar\epsilon-\epsilon_{\theta}(x_t,t)||^2

此时我认为训练方案有两个，一个是从标准高斯分布任取 $x_T$ ，然后一步一步推到 $x_0$ ，每一步有 $x_t$ 可以计算出对应的 $\bar\epsilon$ ，即可计算出对应的loss。但是这种训练策略感觉会有训练时间长，难以收敛的问题，而且必须先规定好变成标准高斯分布的时间步 $T$ ，更进一步说可能根本没有一个变成标准高斯噪声的时间步，或者每张图片都有不同的 $T$ ，所以这种训练策略是不合适的。

另一种就是文章中使用的训练策略，公式如下

\mathbb E_{x_0,\epsilon}||\bar\epsilon-\epsilon_{\theta}(\sqrt{\bar\alpha_t}x_0+\sqrt{1-\bar\alpha_t}\bar\epsilon,t)||^2

任取 $\bar\epsilon\sim\mathcal N(0,\mathbf I)$ ，计算出对应的 $x_t$ ，然后和 $t$ 一起输入到网络中预测出来的噪声要与 $\bar\epsilon$ 相同

训练结束后，我们获得分布 $\mathcal N(\frac{1}{\sqrt{\alpha_t}}(x_t-\frac{\beta_t}{\sqrt{1-\bar\alpha_t}}\epsilon_{\theta}(x_t,t)),\sigma_t)$ ，使用以下公式即可推出 $x_{t-1}$

x_{t-1}=\frac{1}{\sqrt{\alpha_t}}(x_t-\frac{\beta_t}{\sqrt{1-\bar\alpha_t}}\epsilon_{\theta}(x_t,t))+\sigma_t\mathbf z

$\mathbf z$ 也是符合标准高斯分布的噪声， $\sigma_t$ 是方差，文中用的是 $q(x_{t-1}|x_t,x_0)$ 的方差

总结

以上所写其实并不是DDPM的准确推导过程，而是我经过思考，想出的不借助复杂的公式，该如何理解Diffusion。总结来说，我给图片加上了一个噪声，Diffusion就要使用加噪声之后的图片，知道我加了什么噪声，但是通篇看来，我还有两个问题没有解决。

首先，为什么不直接从 $x_t$ 推到 $x_0$ ，通过loss可知，我们模型预测的噪声 $\epsilon_{\theta}(x_t,t)$ 可以认为就是从 $x_0$ 推到 $x_t$ 所加上的噪声，那么为什么不直接使用公式 $x_t=\sqrt{\bar \alpha_t}x_0+\sqrt{1-\bar\alpha_t}\bar\epsilon$ ，直接将 $x_t$ 还原回 $x_0$ ，而是一步一步的往前推，我猜测可能是效果不好之类的原因，需要我尝试后才能知道结果

其次，在逆推的过程中，明明也添加了噪声 $\mathbf z$ ，为什么噪声却越来越少呢，而且正向过程中的噪声是被网络预测出来的，是已经确定的了，而逆推过程中反而添加了不确定的部分 $\mathbf z$ ，这不是使整个逆推变成了一个不确定的过程了，这是为什么我还是没有想通

如果觉得文章对你有用，请随意赞赏

Diffusion

[NeurIPS2020] Denoising Diffusion Probabilistic Models

http://www.yukinoo.site/archives/neurips2020denoisingdiffusionprobabilisticmodels

作者

Yukinoo

发布于

2022-11-14

更新于

2023-04-05

许可协议

CC BY 4.0