keras BatchNormalization 之坑

时间：2019-08-27 19:04:53 阅读：467 评论：0 收藏：0 [点我收藏+]

任务简述：最近做一个图像分类的任务，一开始拿vgg跑一个baseline，输出看起来很正常：

技术分享图片

随后，我尝试其他的一些经典的模型架构，比如resnet50, xception，但训练输出显示明显异常：

技术分享图片

val_loss 一直乱蹦，val_acc基本不发生变化。

检查了输入数据没发现问题，因此怀疑是网络构造有问题，对比了vgg同xception， resnet在使用layer上的异同，认为问题可能出在BN层上，将vgg添加了BN层之后再训练果然翻车。

技术分享图片

翻看keras BN 的源码，原来keras 的BN层的call函数里面有个默认参数traing，默认是None。此参数意义如下：

training=False/0, 训练时通过每个batch的移动平均的均值、方差去做批归一化，测试时拿整个训练集的均值、方差做归一化

training=True/1/None，训练时通过当前batch的均值、方差去做批归一化，测试时拿整个训练集的均值、方差做归一化

当training=None时，训练和测试的批归一化方式不一致，导致validation的输出指标翻车。

用keras的BN时切记要设置training=False!!!

def build_model():
    Inputs = Input(shape=intput_shape, name=‘input‘)
    x_tmp = Lambda(lambda c: tf.image.rgb_to_grayscale(c))(Inputs)
    x_tmp = Conv2D(64, (3, 3), activation=‘relu‘)(x_tmp)
    x_tmp = Conv2D(64, (3, 3), activation=‘relu‘)(x_tmp)
    x_tmp = BatchNormalization(x_tmp, training=False)
    x_tmp = MaxPooling2D(pool_size=(2, 2))(x_tmp)

    x_tmp = Flatten()(x_tmp)
    x_tmp = Dense(128, activation=‘relu‘)(x_tmp)
    outputs = Dense(10, activation=‘softmax‘)(x_tmp)
    model = Model(Inputs, outputs)
    return model

参考：

https://arxiv.org/pdf/1502.03167v3.pdf

https://github.com/keras-team/keras/blob/master/keras/layers/normalization.py#L16

keras BatchNormalization 之坑

原文：https://www.cnblogs.com/Fosen/p/11419930.html

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年09月23日 (328)
2021年09月24日 (313)
2021年09月17日 (191)
2021年09月15日 (369)
2021年09月16日 (411)
2021年09月13日 (439)
2021年09月11日 (398)
2021年09月12日 (393)
2021年09月10日 (160)
2021年09月08日 (222)