问题

事实上，用一般的 Gradient Descent 方法，我们的训练往往走不到 Critical Point 就停止了。

学习率大了，步子太大，震荡；学习率小了，步子太小，训练不动

因此要客制化 Learning Rate！

$σ_{i}^{t}$ 代表其是由参数和迭代次数决定的。

计算方法

但是仍需要改进，就算是同一个参数，需要的 Learning Rate 也会因为 Gradient 大小改变而需要改变。

我们可以自己决定算出来的 $σ$ 权重的占比，让他更看重最近新算出来的 Gradient

事实上，Momentum 和 RMSProp 本质都是 EMA。

Adam 维护了两个“关于梯度的记忆”，都是指数滑动平均（EMA）：

EMA_{t} (x) = β EMA_{t - 1} (x) + (1 - β) x_{t} = (1 - β) k = 0 \sum \infty β^{k} x_{t - k}, β \in (0, 1)

m_{t} = β_{1} m_{t - 1} + (1 - β_{1}) g_{t}

v_{t} = β_{2} v_{t - 1} + (1 - β_{2}) g_{t}^{2}

Bias Correction（Adam 除了 RMS 和 Momentum 以外的一个改进）：

\overset{m}{^}_{t} = \frac{m _{t}}{1 - β _{1}^{t}}, \overset{v}{^}_{t} = \frac{v _{t}}{1 - β _{2}^{t}}

θ_{t + 1} = θ_{t} - η \frac{m ^ _{t}}{v ^ _{t} + ϵ}

θ_{t + 1} = (1 - η λ) θ_{t} - η \frac{m ^ _{t}}{v ^ _{t} + ϵ}

ρ_{t} = ρ_{\infty} - \frac{2 t β _{2}^{t}}{1 - β _{2}^{t}}, ρ_{\infty} = \frac{2}{1 - β _{2}} - 1

θ_{t + 1} = ⎩ ⎨ ⎧ θ_{t} - η \frac{m ^ _{t}}{v ^ _{t} + ϵ}, θ_{t} - η \overset{m}{^}_{t}, ρ_{t} > ρ_{th} ρ_{t} \leq ρ_{th}

爆炸是因为 $σ$ 过小，导致更新较大

可以依靠 Learning Rate Scheduling 解决

Learning Rate Decay
Warm Up 一个可能的原因是，由于 $σ$ 是一个统计数据，一开始并不准确，所以需要先缓慢移动，探索、收集数据，然后再逐步提升学习率，开始快速优化、Decay