过拟合的表现:模型在训练集上表现很好,但是在测试集上表现较差。模型泛化能力弱
data augmentation :图像剪裁,旋转,扭曲,平移,反转,缩放。
正则化
dropout: rescale 要保证输出的期望不会变
Z = Wa + b ,如果20% a被dropout了,那么Wa 只是原来期望值的80%,所以需要Wa/prob_keep. 反向传播的时候也需要。inference的时候不需要。
dropout 为什么能够work
验证集先降后升,在低点停掉。
输入增加噪声,网络参数增加噪声
1.bagging
2.boosting
原文:https://www.cnblogs.com/Lzqayx/p/14488580.html