人工智能主要包括感知智能(比如图像识别、语言识别和手势识别等)和认知智能(主要是语言理解知识和推理)。它的核心是数据驱动来提升生产力、提升生产效率。
机器学习相关技术属于人工智能的一个分支。其理论主要分为如下三个方面:
传统的机器学习:包括线性回归、逻辑回归、决策树、SVM、贝叶斯模型、神经网络等等。
深度学习(Deep Learning):基于对数据进行表征学习的算法。好处是用非监督式或半监督式的特征学习和分层特征提取高效算法来替代手工获取特征。
强化学习(Reinforcement Learning):强调如何基于环境而行动,以取得最大化的预期利益。其灵感来源于心理学中的行为主义理论,即有机体如何在环境给予的奖励或惩罚的刺激下,逐步形成对刺激的预期,产生能获得最大利益的习惯性行为。和标准的监督式学习之间的区别在于,它并不需要出现正确的输入/输出对,也不需要精确校正次优化的行为。强化学习更加专注于在线规划,需要在探索(在未知的领域)和遵从(现有知识)之间找到平衡。
监督学习:训练数据中有我们想要预测的属性,也就是说对每一组 输入 数据,都有对应的 输出。问题可以分为两类:
无监督学习:训练数据无对应的输出值。例子:数据聚类、降维。
特征向量:
留出法
直接将数据集划分为两个互斥的集合,2/3-4/5。
划分原则:划分过程尽可能保持数据分布的一致性
方法缺陷:训练集过大,更接近整个数据集,但是由于测试集较小,导致评估结果缺乏稳定性;测试集大了,偏离整个数据集,与根据数据集训练出的模型差距较大,缺乏保真性。
交叉验证法
将数据集划分为k个大小相似的互斥子集,每个子集轮流做测试集,其余做训练集,最终返回这k个训练结果的均值。
优点:更稳定,更具准确定;
缺点:时间复杂的较大
概述
med分类器
白化的目的:
将原始特征映射到一个新的特征空间,使得在新空间
中特征的协方差矩阵为单位矩阵,从而去除特征变化
的不同及特征之间的相关性。
输入数据集X,经过白化处理后,新的数据X‘满足两个性质:
(1)特征之间相关性较低;
(2)所有特征具有相同的方差。
鸢尾花实验的白化使用的是PCA方法,此处不再赘述。
特征解耦
概念
二分类时当Σ1、Σ2是任意值时,MICD的决策边界是一个超抛物面或者超双曲面
MICD分类器的缺陷是会选择方差较大的类。
半个课程下来,目前还停留在理论阶段,概率论倒是还记得,高数和线代半斤八两,机器学习是门实践和理论结合密切的学科,网上查阅资料文献的时候,看到
对于此前不是机器学习/深度学习这个领域的朋友,不管此前在其他领域有多深的积累,还请以一个敬畏之心来对待。
持续的投入:三天打鱼两天晒网的故事,我们从小便知,不多说了;
系统的学习:一个学科,知识是一个体系,系统的学习才可以避免死角,或者黑洞;
大量的练习:毕竟机器学习/深度学习属于Engineering & Science的范畴,是用来解决实际的问题的。单纯的理论研究,如果没有实际的项目(包括研究项目)经验做支撑,理论可能不会有很大突破。
后验概率 p(Ci|x)
表达给定模式 x 属于类 Ci 的概率。
模式 x 属于类 Ci 的后验概率计算公式为:
MAP分类器:将测试样本决策分类给后验概率最大的那个类。
对于二分类问题,MAP分类器的决策边界:
单维空间:通常有两条决策边界。
高维空间:复杂的非线性边界。
决策风险的概念:不同的决策错误会产生程度不同的风险。
贝叶斯分类器:
选择决策风险最小的类。
定义:
待学习的概率密度函数记为 p(x | θ)
,θ 是待学习的参数。
给定的 N 个训练样本都是从 p(x | θ)
采样得到的,且满足iid条件,则所有样本的联合概率密度(似然函数)为:
因此,学习参数 θ 的目标函数可以设计为:使该似然函数最大。
贝叶斯估计:给定参数 θ 分布的先验概率以及训练样本,估计参数 θ 分布的后验概率。
θ 的后验概率:
给定 N 个训练样本,在特征空间内估计每个任意取值 x 的概率密度,即估计以 x 为中心,在极小的区域 R = (x, x+δx)
内的概率密度 p(x)
其中 k 为落入区域 R 的样本个数,V 为区域 R 的体积。
直方图也是基于无参数概率估计的基本原理:p ≈ k/(NV)
将特征空间划分为 m 个区域R。
给定任意模式,先判断它属于哪个区域,p(x) = ki/(NV), if x ∈ Ri
优点:
缺点:
{????}
,直接在输入空间内学习其概率密度函数??(??)
。
??(??|????)
,再结合先验概率得到联合概 率 ??(??,????) = ??(??|????)??(????)
。然后,对所有类别进行积分,得到边缘概率密度函数?? (??) = Σ?? ??(??, ????)
。最后,得到后验概率??(????|??)
。 {????}
,直接在输入空间内估计后验概率??(????|??)
。
??(????|??)
相当于直接从输入样本??映射????
的判别函数??(??)
,即判别模型。??(??)
是线性函数,则??(??)
为线性判据。原理:找到一个最合适的投影轴,使两类样本在该轴上投影的重叠部分最少,从而使分类效果达到最佳。最佳标准之一:投影后,使得不同类别样本分布的类间差异尽可能大,同时使得各自类内样本分布的离散程度尽可能小
目标函数:
算法训练过程:
设计思想给定一组训练样本,使得两个类中与决策边界最近的训练样本到决策边界之间的间隔最大
支持向量机的目标函数是一个条件优化问题(Constrained
Optimization)。拉格朗日乘数法(Lagrange Multiplier)是常用的解决
该类问题的方法。
函数在等高面上任意一点的梯度方向与其等高面(切线方向)正交,且朝向(即正方向)函数值较高的方向。 ??(??)的极值点
???
必须位于曲线??(??)= 0
上。 搜寻极值点???
:沿着??(??)= 0
的切线方向、向着??(??)
负梯度方向移动。当出现沿着切线方向、无法再向??(??)
负梯度方向移动时停止
此时,在该点,??(??)
等高线与??(??)=0
相切,即??(??)
与????)
梯度方向在同一直线上,该点为??(??)的极值点???
。
??(??)
与??(??)
的梯度记作????(??)和????(??)。如果是等式约束,在极值点???
上, ????(???)
和????(???)
的方向必然平行,可能同向或反
向,梯度的幅值可能不同。
对偶问题和原问题的关系:
设对偶问题的最优值为 d,主问题的最优值为 p,对于所有的优化问题都存在 d* <= p*
(弱对偶性)
强对偶性:d* = p*
成立条件(在可行域至少有一点使得不等式约束严格成立):
f(x)
是凸函数g(x)
是凸函数h(x)
是仿射函数步骤:
构建拉格朗日函数
构建对偶函数
ω
和ω0
求解最小化||ω||22
????
对偶函数的求解
求解支持向量
获得参数最优解ω
和ω0
给这门课打分的话,可以有9.5分,课时安排得很紧凑,学习的时候挺连贯的,后面的鸢尾花实践课也安排得很及时,正愁理论与实践没法结合起来,唯一的扣分点可能是分数设置有点零散,要弄太多东西了,有点软工那味了。
原文:https://www.cnblogs.com/elis/p/12832831.html