Hint.
Solution.
\(\tilde{J}=\text{tr}(\widehat{U}^TS\widehat{U})+\text{tr}(H(I-\widehat{U}^T\widehat{U}))\),其中 \(H\) 是正交矩阵约束的拉格朗日乘子。注意到 \(I-\widehat{U}^T\widehat{U}\) 是对称矩阵,总可假设 \(H\) 对称而不改变正则项的值,否则可使 \(H:= (H+H^T) / 2\)。
计算易得 \(\frac{\partial\tilde{J}}{\partial \widehat{U}}=2(S\widehat{U}-\widehat{U}H)\),令导数为零得 \(S\widehat{U}=\widehat{U}H\)。由于最优解满足正交约束,两边左乘 \(\widehat{U}^T\) 有 \(H=\widehat{U}^TS\widehat{U}\),即 \(H\) 可解。不同的 \(\widehat{U}\) 间差一个正交矩阵 \(P\),即 \((\widehat{U}P)^T(\widehat{U}P)=P^T\widehat{U}^T\widehat{U}P=P^TP=I\),回代亦可验证其不改变目标函数最优值。显然当 \(\widehat{U}\) 为 \(S\) 的特征向量,\(H\) 为 \(S\) 的特征值时,最优解条件成立,故所有的解与 \(S\) 的特征向量差一个正交矩阵。
Comment.
正交矩阵理解为旋转和反射的组合,上述结论可以理解为,通过适当的旋转和反射,可以得到唯一的主成分向量。实际上,主成分分析只关心原空间能否用低维空间线性近似,不同坐标系下表示的子空间是等价的。
Solution.
记 \(X\in\mathbb{R}^{N\times D} (D\gg N)\) 为数据矩阵,PCA 求主成分向量即求以下特征向量 \(N^{-1}X^T X u=\lambda u\)。注意到 \(X^T X\in\mathbb{R}^{D\times D}\),即面对高维数据,计算特征向量的计算量很大。本题提供一种降维思路,即等号两端左乘 \(X\),得 \(N^{-1}(XX^T) X u=\lambda Xu\),即 \(v=Xu\) 是矩阵 \(X X^T\in\mathbb{R}^{N\times N}\) 的特征向量。在等式 \(N^{-1}(XX^T)v=\lambda v\) 两端左乘 \(X^T\) 得 \(N^{-1}(X^T X)X^Tv=\lambda X^Tv\),注意到 \(X^T v\) 亦为 \(N^{-1}(X^T X)\) 特征值为 \(\lambda\) 对应的特征向量。故将 \(X^T v\) 归一化可以得到一个 \(u‘\)。只需计算 \(X^T v\) 的范数。注意到
假定 \(v\) 是单位向量,则有 \(\|X^T v\|_2=(N\lambda)^{1/2}\),故 \(u‘=(N\lambda)^{-1/2}X^T v\)。
总结而言,对高维数据做主成分分析的步骤可以为
Comment.
原文:https://www.cnblogs.com/hilbert9221/p/14692081.html