打算组会讲的,但是这周也没开,就写个汇报吧

Introduction

上图(a)是过往大部分方法选择的结构,该文认为这种结构会导致不同尺度图像之间的耦合,不同等级的生成器分别生成大致形状、粗略的属性以及细粒度的细节,最后把他们混合起来,这个耦合按照我的理解是不同尺度生成器生成的部分会有所重叠。

其次,该文认为过去的方法在进行对抗训练时,往往会固定额外的网络,使得这些网络在GAN能力不断变强之后,语义一致性的监督能力不足。最后,跨模态注意力不能充分利用文本信息,因为计算成本的限制,它们只能在64和128像素级别使用,这限制了图像文本的融合,以及高分辨率图像的生成。

为了解决第一个问题,该文设计了一个单步的生成器,如上图(b);对第二个问题,提出了一个由匹配感知梯度惩罚(MA-GP)和单向输出组成的判别器;为解决第三个问题,提出了一种深度文本图像融合模块(DFBlock)来更有效地将文本信息融合到图像特征中

故事感觉很牵强,除第一个问题外没感觉到问题和解决方法的关联,所以直接来看方法

Method

网络由三个部分组成,生成器、判别器和文本编码器,文本编码器是预训练好的,将文本编码成向量。生成器输入一个从高斯分布采样的噪声zz,以及将噪声zz和编码生成的向量拼接之后的向量ee,并输出一张图片;判别器输入生成器生成的图片以及向量ee,判断真假以及是否匹配。

One-Stage Text-to-Image Backbone

该文设计了一个单步的生成器,为了堆叠更深的层数使用了残差网络,并使用折中loss来稳定对抗训练过程,折中loss如下

LD=ExPr[min(0,1+D(x,e))](1/2)EG(z)Pg[min(0,1D(G(z),e))](1/2)ExPmis[min(0,1D(x,e))]LG=EG(z)Pg[D(G(z),e)]\begin{aligned} L_D=&-\mathbb E_{x\sim \mathbb P_r}[min(0,-1+D(x,e))]\\ &-(1/2)\mathbb E_{G(z)\sim \mathbb P_g}[min(0,-1-D(G(z),e))]\\ &-(1/2)\mathbb E_{x\sim \mathbb P_{mis}}[min(0,-1-D(x,e))]\\ L_G=&-\mathbb E_{G(z)\sim \mathbb P_{g}}[D(G(z),e)] \end{aligned}

其中,Pg,Pr,Pmis\mathbb P_g,\mathbb P_r,\mathbb P_{mis}分别表示生成数据、真实数据和图片与文本不匹配的数据的分布

Target-Aware Discriminator

Matching-Aware Gradient Penalty

根据Figure 3(a)图所示,添加真实数据的梯度可以使损失函数在真实数据极其附近的梯度变小,使函数变化更加平滑,而且更容易收敛。公式如下

LD=ExPr[min(0,1+D(x,e))](1/2)EG(z)Pg[min(0,1D(G(z),e))](1/2)ExPmis[min(0,1D(x,e))]+kExPr[(xD(x,e)+eD(x,e))p]LG=EG(z)Pg[D(G(z),e)]\begin{aligned} L_D=&-\mathbb E_{x\sim \mathbb P_r}[min(0,-1+D(x,e))]\\ &-(1/2)\mathbb E_{G(z)\sim \mathbb P_g}[min(0,-1-D(G(z),e))]\\ &-(1/2)\mathbb E_{x\sim \mathbb P_{mis}}[min(0,-1-D(x,e))]\\ &+k\mathbb E_{x\sim \mathbb P_r}[(||\nabla_x D(x,e)||+||\nabla_e D(x,e)||)^p]\\ L_G=&-\mathbb E_{G(z)\sim \mathbb P_{g}}[D(G(z),e)] \end{aligned}

k,pk,p是用来平衡梯度影响的超参数

我觉得这个梯度惩罚应该是看实验结果效果比较好,然后找了个说法放了进去,感觉跟要解决的问题没什么关系。实验结果如下,有 Matching-Aware Gradient Penalty (MA-GP)的显然结果会更好一些

One-Way Output

Figure 4(a)中是过去方法常用的,左侧只使用图片特征计算非条件损失,右侧使用图片和文本的特征计算条件loss。如Figure 3(b)中所示,非条件损失将结果导向真图,条件损失将结果导向图片与文本相互匹配,而在训练时仅将两者简单相加,很可能会使结果并不能如预期的一样指向真图且匹配,所以该文设计了一个单向输出的模块,直接预测整个损失

One-Way Output (OW-O)的效果同样见Table 2,可见比没有时要强

Efficient Text-Image Fusion

Figure 2中可见UPBlock叠了七个,每个UPBlock的结构如上图,放缩参数γ\gamma和偏移参数θ\theta分别由两个MLP网络预测,

γ=MLP1(e),θ=MLP2(e)\gamma=MLP_1(e),\,\,\,\theta=MLP_2(e)

然后对特征图进行仿射变换

AFF(xie)=γixi+θiAFF(x_i|e)=\bold{\gamma}_i\cdot x_i+\bold{\theta}_i

这个部分应该是有借鉴其他模型和方法的

Experiments

主要实验结果如下

和其他方法定量的对比

以及消融实验,即上一节的实验图

思考

这部分写在另一篇文章“基于clipstyler的研究过程记录”中了