Network as Generator

和以前的模型不同，这次输入会加入一个随机分布中取样的变量 $z$ ，从而使得与之相对的 $y$ 不同，为另一个复杂的分布。

当我们的任务需要一点创造新的时候，我们需要输出一个 distribution。

GAN

Unconditional Generation

也就是只输入随机变量 $z$ ，而不输入 $x$ 。

$z$ 服从的分布并没有特殊要求，对性能影响差异有些许差异，但总体不大。下文均假定 $z \sim N (μ, σ)$

Conditional Generation

Discriminator

输入图片，输出 scalar，相当于打分，越符合标准分数越高

Basic Idea

也就是协同进化，Generator 的目的是生成足够符合特征的图片，骗过 Discriminator。而 Discriminator 会通过关注图片某些特征，鉴别真假图片，从而迫使 Generator 进行改正。

Algorithm

首先初始化 G 与 D，然后…

固定住 G，训练 D：用 G 生成出来的图片，和 Database 的真图片训练 D，使得 D 可以分类真假图片（可以当作 Classifier，也可以当作 Regression 的问题做，总之区分两种）
固定 D，训练 G：用 G 生成的图片，交给 D 取鉴定，然后过程中不断训练、调整 G 的参数，使得得分越高越好。这样就可以说明我们的 G 开始骗过 D 了
交替进行第一、二步

The Theory

当我们训练模型的时候，我们实际在 minimize 什么？我们的 Loss 是什么？

然而，Divergence 十分难以计算…

GAN 解决的问题就是，我们可以在不知道 $P_{G}, P_{d a t a}$ 的具体形式的时候，只通过采样估测他们的 Divergence

（我们把要 minimize 的称为 Loss Function，要 maximize 的称为 Objective Function）

直观理解：

所以，这就是我们要做的，刚刚所提及的过程

其中，也就是：

$V (G, D)$ 为 D 的 Object Function（也就是 D 的 Loss Function 为 $- V (G, D)$ ）
而 $ma x V (G, D)$ 是 G 的 Loss Function，其实也就是 $E_{y \sim P_{G}} [lo g (1 - D (y))]$ （第一项与 G 无关）, 实则为了便于训练，解决梯度消失问题，使用 $L_{G} = - E_{z \sim p_{z}} [lo g D (G (z))]$

实际上，这个过程是对 JS Divergence 的估计，我们最小化 G 的 Loss Function，本质就是最小化真实图片分布和生成图片分布的 JS Divergence。

通用公式：

目标函数：

G min D max V (G, D) = E_{x \sim P_{d a t a}} [T (x)] - E_{z \sim P_{z}} [f^{*} (T (G (z)))] E [T (x)] - E [f^{*} (T (G (z)))], 其中 T (x) = g_{f} (V (x))

Discriminator Loss：

L_{D} = - V = - (E_{x \sim P_{d a t a}} [T (x)] - E_{z \sim P_{z}} [f^{*} (T (G (z)))])

Generator Loss：

L_{G} = - E_{z \sim P_{z}} [f^{*} (T (G (z)))]

Training Tip：WGAN

实际上 JS divergence 有一些问题。 $P_{G}, P_{d a t a}$ 几乎没有任何重叠。

因此算出来经常是 $lo g 2$ ，也就是 D 总能正确分类 G 生成的图片和真实图片，这导致了我们无法根据 Loss 判断是不是模型正在变好。

所以换一种计算方式：Wasserstein Distance

用这个作为两个分布接近程度的衡量，就可以通过 Loss 观察我们模型优化的过程，可以看到模型变得更好的过程。

所以 WGAN 用的是这个方法，用这个作为 D 的 Object Function。

但总之，GAN 还是很难以训练，因为一旦 G 或者 D 有一方没能持续进步，另一方的提升也会随之停滞。

GAN 文字生成

而 GAN 生成文字的训练更是格外困难，因为我们会取最大概率对应的词，作为输出的 token。而参数微小改变不影响虽然对具体概率有影响，但一般不影响他们的大小关系，最大概率对应的 token 不变，输出不变，导致不可微分。

与 Max Pooling 的不同

GAN 生成序列时的 max 不可导：

Decoder 输出的是一个概率分布，取概率最大的那个字的编号。

索引的变化是跳跃式的，不是连续的。

如果对 Decoder 的参数做微小的改变 $Δ$ ，虽然 Softmax 的概率分布会发生细微变化，但只要这个变化不足以让另一个字的概率超过当前最大值，argmax 的结果就完全不会变。（ $\frac{\partial Output Word}{\partial Decoder Params} = 0$ ）

当两个字的概率正好相等时，函数发生突变，此时导数不存在。

CNN 的 Max Pooling 可以求导：

Max Pooling 虽然也取最大值，但它是在连续的特征值空间里操作的。

Max Pooling 选出的是滑动窗口里那个最大的具体数值。

因此梯度是分段线性的：

假设输入是 $x_{1}, x_{2}$ ，输出 $y = max (x_{1}, x_{2})$ 。

如果 $x_{1} > x_{2}$ ，那么 $y = x_{1}$ ，此时 $\frac{\partial y}{\partial x _{1}} = 1$ 。

如果 $x_{1} < x_{2}$ ，那么 $y = x_{2}$ ，此时 $\frac{\partial y}{\partial x _{2}} = 1$ 。

在反向传播时，梯度会顺着当初“胜出”的那个路径原路返回，而没被选中的路径梯度为 0。

SrachGAN: Training Language GANs from Scratch

Evaluation of GAN

Quality

这个分类模型和 Discriminator 的区别在于：

考虑单一图片
其并非要区分真假图，而是要把假图作为输入，尝试对图片分类
一般是训练好的通用的模型，避免学习假图特征强行分类
使用此方法，不关心到底输入的是什么类型的东西，只要看分类出来概率是不是集中（也就是是不是有一个概率很高的类，机器笃定其为某一类），就能知道是不是一个特征明显的图片，也就是是不是高质量的图片