李宏毅深度学习笔记 1 - 深度学习的一些技巧

如何在训练数据上得到更好的结果？

改变激活函数

sigmoid 会把输入的大变化压缩成较小的输出变化，因此在网络加深时会导致梯度消失现象

ReLU

Q:ReLU 会导致神经网络变为线性的吗？
A: 对于使用 ReLU 的网络，整体还是非线性的，当输入做较大改变的时候，激活的神经元就会发生变化

ReLU-variant

Maxout

Maxout 让每一个神经元自动去学习他的激活函数

如图所示，Maxout 将固定数量 (需要自己调整) 的神经元分为一组，并取组中最大的值作为输出。通过这样的方法，Maxout 可以拟合出 ReLU 以及其他任意的分段线性凸激活函数

Q:Maxout 是否会导致未被选择的神经元不能训练？
A: 对于不同的输入数据，Maxout 所选择激活的神经元在训练的过程中不断地进行变化，因此理论上每一个 weight 都会被训练到

调整学习率

AdaGrad

AdaGrad 会使用到历史梯度的信息，对于当前当前需要更新的 w，如果其平常的 gradient 都比较大，那么当前所处位置应该比较 “陡峭”，所以选取比较小的 learning rate；反之，如果平常 gradient 都比较小，那么当前所处位置应该比较 “平坦”，所以选取比较大的 learning rate