使用其快速卷积的理论基础,利用该架构实现图上的半监督学习。
None。
\begin{equation}
H^{(l+1)}=\sigma(\widetilde{D}^{-\frac{1}{2}}\widetilde{A}\widetilde{D}^{-\frac{1}{2}}H^{l}W^{l}).
\end{equation}
其中$\sigma$代表激活函数,例如RELU;$\widetilde{A}$是邻接矩阵加上自连接(self connection);$\widetilde{D}^{-\frac{1}{2}}\widetilde{A}\widetilde{D}^{-\frac{1}{2}}$代表归一化的拉普拉斯变换 ,$\H^{l}$为特征矩阵,$W^{l}$为某层可训练的参数
\begin{equation}
g_{\theta} \star x=U g_{\theta}U^{T}x
\end{equation}
其中$U$是归一化后拉普拉斯矩阵的特征向量;
\begin{equation}
L=I_{N}-\widetilde{D}^{-\frac{1}{2}}\widetilde{A}\widetilde{D}^{-\frac{1}{2}}=U\Lambda U^{T}
\end{equation}
可以将$g_{\theta}$理解为$L$的特征值函数。由于对特征值矩阵的计算代价较高($O(N^{2})$),而且在图比较大的时候计算$L$也比较expensive.为了解决这个问题$g_{\theta}(\Lambda)$可以被Chebyshev(切比雪夫)多项式的K阶展开取代。
\begin{equation}
g_{\theta^{‘}}(\Lambda)\approx\sum_{k=0}^K\theta_{k}^{‘}T_{k}(\widetilde{\Lambda})x
\end{equation}
上述$\widetilde{\Lambda}=\frac{2}{\lambda_{max}}\Lambda-I_{N}$,$\lambda_{max}$代表$L$的最大特征值。$\theta_{k}^{‘}$是切比雪夫系数的向量,切比雪夫不等式的递归定义如下:
\begin{equation}
T_{k}(x)=2x T_{k-1}(x)-T_{k-2}(x),with\quad T_0(x)=1\quad and \quad T_1(x)=x
\end{equation}
由第一个定义卷积的公式可以得出:
\begin{equation}
g_{\theta^{‘}}\star x\approx\sum_{k=0}^{K}\theta_{k}^{‘}T_{k}(\widetilde{L})x \quad with\quad \widetilde{L}=\frac{2}{\lambda_{max}}L-I_{N}
\end{equation}
此为1606.09375-Convolutional Neural Networks on Graphs with Fast Localized Spectral Filtering文章中定义的卷积。
证明过程:
\begin{aligned}g_\theta * x & = Ug_\theta U^Tx \\& = U g_{\theta}(Λ) U^Tx \\& =U (\sum^{K}_{k=0} \theta_kT_K(\tilde Λ)) U^Tx \\& = (\sum^{K}_{k=0} \theta_kT_K(U\tilde Λ U^T)) x \\& = \sum^{K}_{k=0} \theta_k T_K(\tilde L) x \qquad \end{aligned}
\begin{equation}
x\ast g_\theta=\Theta_0 x-\Theta_1D^{-\frac{1}{2}}AD^{-\frac{1}{2}}x
\end{equation}
假设$\Theta=\Theta_0=-\Theta_1$:
\begin{equation}
x\ast g_\theta=\Theta(I_N+D^{-\frac{1}{2}}AD^{-\frac{1}{2}})x
\end{equation}
又因为$I_N+D^{-\frac{1}{2}}AD^{-\frac{1}{2}}$是范围$[0,2]$的特征值,在训练过程中会出现梯度爆炸和消失的情况,所以引入一个$renormalization \quad trick$:
\begin{equation*}
I_N+D^{-\frac{1}{2}}AD^{-\frac{1}{2}}\stackrel{\widetilde{A}=A+I_N}{\longrightarrow}{\widetilde{D}^{-\frac{1}{2}}\widetilde{A}\widetilde{D}^{-\frac{1}{2}}}
\end{equation*}
其中$\widetilde{A}=A+I_N,\widetilde{D_{ii}}=\sum_j\widetilde{A}_{ij}$,即图中加上自连接。
再加上激活函数即推导出公式(1)的传播规则:
$H^{(l+1)}=\sigma(\widetilde{D}^{-\frac{1}{2}}\widetilde{A}\widetilde{D}^{-\frac{1}{2}}H^{l}W^{l}).$
可以推广这个特征映射公式到具有C个输入通道(即每个结点的C维特征向量)的信号$X\in\mathbb{R}^{N \times C}$和F个滤波器:
\begin{equation*}
Z={\widetilde{D}^{-\frac{1}{2}}\widetilde{A}\widetilde{D}^{-\frac{1}{2}}}X\Theta
\end{equation*}
其中$\Theta\in\mathbb{R}^{C \times F}$是滤波器的参数矩阵,$Z\in\mathbb{R}^{N \times F}$是一次卷积输出的矩阵
SEMI-SUPERVISEDCLASSIFICATION WITHGRAPHCONVOLUTIONALNETWORKS----论文理解
原文:https://www.cnblogs.com/lizhe-cnblogs/p/13333680.html