首页 > 系统服务 > 详细

初识机器学习——吴恩达《Machine Learning》学习笔记(十四)

时间:2018-08-20 22:22:14      阅读:449      评论:0      收藏:0      [点我收藏+]

降维(Dimensionality Reduction)

目标一:数据压缩(Motivation I:Data Compresstion)

降维——另一种无监督学习的方法。如,数据从三维降到二维(3D-2D)、从二维降到一维(2D-1D)。

数据压缩的目的:减少内存空间的占用;加快算法运行速度。

技术分享图片

 

目标二:数据可视化(Motivation II:Data Visualization)

通过把数据从50维、100维甚至更高维度,降低到二维、三维等来进行数据可视化分析,从而更好地分析数据。

主成分分析问题规划(Principal Component Analysis probrem formulation)

对于降维问题,目前最流行的方法是一个叫主成分分析方法(PCA)的算法。

主成分分析方法:在PCA之前,一般需要对数据进行均值归一化、特征规范化。PCA方法,找到一个低维平面,对数据进行投影(90度投影或正交投影),以及最小化每个点与投影对应点之间的距离的平方值。

技术分享图片

 

注意:PCA方法不是线性回归。

PCA方法:点与投影点之间的垂直距离

线性回归:点与直线的竖直距离(沿Y轴方向)

技术分享图片

主成分分析算法(Principal Component Analysis algorithm)

数据预处理——特征缩放/均值归一化

均值归一化:使得替换后的数据均值为0

技术分享图片

 

PCA算法

技术分享图片

PCA算法——获取U中前k列

技术分享图片

PCA算法总结

技术分享图片

主成分参数的选择(Choosing the number of principal component)

计算预测误差平方和的均值

数据集的总变动

选择最小的k值以满足方差要求

技术分享图片

 

另一种方法计算K值

技术分享图片

以上总结

技术分享图片

应用PCA的建议(Advice for applying PCA)

在监督学习中,用来提高速度。注意,数据只能在training set 时进行Mapping,但是可以用在交叉验证集和测试集上。

技术分享图片

 

应用PCA来压缩数据或者可视化——提高算法效率以及降低硬盘内存的消耗

技术分享图片

注意:不用尝试使用PCA来降低过拟合!降低过拟合应该使用正则化!

不要解决一个算法问题时,一上来就把PCA列在计划的首选中。而是,一开始就不应该考虑PCA,只有在需要提高算法运行速度或者减低内存时才应该考虑

初识机器学习——吴恩达《Machine Learning》学习笔记(十四)

原文:https://www.cnblogs.com/haifengbolgs/p/9507220.html

(0)
(0)
   
举报
评论 一句话评论(0
关于我们 - 联系我们 - 留言反馈 - 联系我们:wmxa8@hotmail.com
© 2014 bubuko.com 版权所有
打开技术之扣,分享程序人生!