论文笔记系列-Efficient Neural Architecture Search via Parameter Sharing

时间：2018-08-07 11:57:36 阅读：2189 评论：0 收藏：0 [点我收藏+]

Summary

本文提出超越神经架构搜索（NAS）的高效神经架构搜索（ENAS），这是一种经济的自动化模型设计方法，通过强制所有子模型共享权重从而提升了NAS的效率，克服了NAS算力成本巨大且耗时的缺陷，GPU运算时间缩短了1000倍以上。在Penn Treebank数据集上，ENAS实现了55.8的测试困惑度；在CIFAR-10数据集上，其测试误差达到了2.89%，与NASNet不相上下（2.65%的测试误差）

Research Objective 作者的研究目标

设计一种快速有效且耗费资源低的用于自动化网络模型设计的方法。主要贡献是基于NAS方法提升计算效率，使得各个子网络模型共享权重，从而避免低效率的从头训练。

Problem Statement 问题陈述，要解决什么问题？

本文提出的方法是对NAS的改进。NAS存在的问题是它的计算瓶颈，因为NAS是每次将一个子网络训练到收敛，之后得到相应的reward，再将这个reward反馈给RNN controller。但是在下一轮训练子网络时，是从头开始训练，而上一轮的子网络的训练结果并没有利用起来。

另外NAS虽然在每个节点上的operation设计灵活度较高，但是固定了网络的拓扑结构为二叉树。所以ENAS对于网络拓扑结构的设计做了改进，有了更高的灵活性。

Method(s) 解决问题的方法/算法

ENAS算法核心

回顾NAS，可以知道其本质是在一个大的搜索图中找到合适的子图作为模型，也可以理解为使用单个有向无环图(single directed acyclic graph, DAG)来表示NAS的搜索空间。

基于此，ENAS的DAG其实就是NAS搜索空间中所有可能的子模型的叠加。

下图给出了一个通用的DAG示例

如图示，各个节点表示本地运算，边表示信息的流动方向。图中的6个节点包含有多种单向DAG，而红色线标出的DAG则是所选择的的子图。

以该子图为例，节点1表示输入，而节点3和节点6因为是端节点，所以作为输出，一般是将而二者合并求均值后输出。

在讨论ENAS的搜索空间之前，需要介绍的是ENAS的测试数据集分别是CIFAR-10和Penn Treebank，前者需要通过ENAS生成CNN网络，后者则需要生成RNN网络。

所以下面会从生成RNN和生成CNN两个方面来介绍ENAS算法。

1.Design Recurrent Cells

本小节介绍如何从特定的DAG和controller中设计一个递归神经网络的cell（Section 2.1）？

首先假设共有\(N\)个节点，ENAS的controller其实就是一个RNN结构，它用于决定

哪条边需要激活
DAG中每个节点需要执行什么样的计算

下图以\(N=4\)为例子展示了如何生成RNN。

假设\(x[t]\)为输入，\(h[t-1]\)表示上一个时刻的输出状态。

节点1：由图可知，controller在节点1上选择的操作是tanh运算，所以有\(h_1=tanh(X_t·W^{(X)}+h_{t-1}·W_1^{(h)})\)
节点2：同理有\(h_2 = ReLU(h_1·W_{2,1}^{(h)})\)
节点3：\(h_3 = ReLU(h_2·W_{3,2}^{(h)})\)
节点4：\(h_4 = ReLU(h_1·W_{4,1}^{(h)})\)
节点3和节点4因为不是其他节点的输入，所以二者的平均值作为输出，即\(h_t=\frac{h_3+h_4}{2}\)

由上面的例子可以看到对于每一组节点\((node_i,node_j),i<j\)，都会有对应的权重矩阵\(W_{j,i}^{(h)}\)。因此在ENAS中，所有的recurrent cells其实是在搜索空间中共享这样一组权重的。

2.1 Design Convolutional Networks

本小节解释如何设计卷积结构的搜索空间

回顾上面的Recurrent Cell的设计，我们知道controller RNN在每一个节点会做如下两个决定:a)该节点需要连接前面哪一个节点 b)使用何种激活函数。

而在卷积模型的搜索空间中，controller RNN也会做如下两个觉得:a)该节点需要连接前面哪一个节点 b)使用何种计算操作。

在卷积模型中，(a)决定 (连接哪一个节点) 其实就是skip connections。(b)决定一共有6种选择，分别是3*3和5*5大小的卷积核、3*3和5*5大小的深度可分离卷积核,3*3大小的最大池化和平均池化。

下图展示了卷积网络的生成示意图。

2.2 Design Convolutional Cell

本文并没有采用直接设计完整的卷积网络的方法，而是先设计小型的模块然后将模块连接以构建完整的网络（Zoph et al., 2018）。

下图展示了这种设计的例子，其中设计了卷积单元和 reduction cell。

接下来将讨论如何利用 ENAS 搜索由这些单元组成的架构。

假设下图的DAG共有\(B\)个节点，其中节点1和节点2是输入，所以controller只需要对剩下的\(B-2\)个节点都要做如下两个决定：a)当前节点需要与那两个节点相连 b)所选择的两个节点需要采用什么样的操作。(可选择的操作有5种：identity(id,相等)，大小为3*3或者5*5的separate conv(sep),大小为3*3的最大池化。)

可以看到对于节点3而言，controller采样的需要连接的两个节点都是节点2，两个节点预测的操作分别是sep 5*5和identity。