1. 拟合
- 特征越多,拟合出的模型越准确,但是当特征过多的时候,则出现过拟合。所以,消除过拟合的最基本方式是:(1)尽量减少选择的特征数量; (2)正则化
- 正则化是一种常见的防止过拟合的方法,一般原理是在代价函数后面加上一个对参数的约束项,这个约束项被称作正则化项。
- 损失函数(Loss function):是定义在单个样本的,算的是一个样本的误差。
代价函数(Cost function):是定义在整个训练集上的,是所有样本误差的平均,也就是损失函数的平均。
目标函数: 代价函数+正则化项
损失函数或代价函数代表拟合结果的好坏。损失函数越小,就代表模型拟合的越好。
风险函数(risk function): 风险函数是损失函数的期望,由于我们的输入输出(X,Y)遵循一个联合分布,但这个联合分布是未知的,所以无法计算。通过历史数据,也就是训练集,f(x)关于训练集的平均损失称作经验风险。
在实际问题中,我们不仅要经验风险最小化,还要让结构风险最小化。定义一个函数J(f),这个函数专门用来度量模型的复杂度,在机器学习中也叫正则化,常用的有L1,L2范数。
- 回归有线性回归和非线性回归。回归一般指线性回归,是求最小二乘解的过程。总的来说,回归是拟合的一种方法。
2. 训练和学习
- 机器学习中的学习,就是根据训练样本,猜测函数的过程。
- 集成学习方法。把性能较低的多种弱学习方法,通过适当组合而形成高性能的强学习方法,称为集成学习方法。目前有两种集成学习法,一种是多个弱学习方法独立进行再学习的Bagging学习法,一种是多个弱学习方法依次进行再学习的Boosting学习法。
- 机器学习 = 模型 + 策略 + 算法。
模型可以是函数,也可以是概率分布。策略可以是平方和最小。算法可以是求导,EM算法等。
- 超参数(hyper parameter)。超参数是在开始学习过程之前设置值的参数,而不是通过训练得到的参数数据。
3. 分类
- K近邻算法工作原理。存在一个训练样本集,并且样本集中每个数据都存在标签,即我们知道样本集中每一数据与所属分类的对应关系。输入没有标签的新数据后,将新数据的每个特征与样本集中数据对应的特征进行比较,然后算法提取样本集中特征最相似数据(最近邻)的分类标签。
- 熵与决策树。
熵可以看作是随机变量的平均不确定度的度量。在平均意义下,它是为了描述该随机变量所需的比特数。
在划分数据集之前和之后信息发生的变称为信息增益。计算信息增益,为了在做特征选择时找出需要的特征。
数据的划分。数据的划分,依据信息增益,而信息增益的核心在于计算信息,而信息是概率的函数。所以,数据的划分落脚点还是概率。牢牢抓住划分之后的概率,对概率敏感,才能从容的计算出信息增益。
数据的划分一般分为下面几个步骤:
第一步:按照类别划分。
第二步:每个类别有多个特征值,每个特征值的出现是有概率的。
第三步:牢记,熵就是概率的函数。根据概率计算熵。
- Sigmoid函数是一个符号函数,它可以将变量映射到0,1之间。
- 朴素贝叶斯分类器。“朴素”,是因为整个形式化过程只做最原始、最简单的假设。这些假设包括:
(1)各个特征之间相互独立。
(2)每个特征同等重要。
- Logistic回归(非线性回归)。
什么是线性回归?用一条直线对训练数据进行拟合的过程,叫做回归。这条直线被称为最佳拟合直线。
Logistic回归的目的是寻找一个非线性函数Sigmoid的最佳拟合参数,求解过程可以由最优化算法来完成。在最优化算法中,最常用的就是梯度上升算法,而梯度上升算法又可以简化为随机梯度上升算法。随机梯度上升算法与梯度上升算法的效果相当,但占用更少的计算资源。此外,随机梯度上升是一个在线算法,它可以在新数据到来时就完成参数更新,而不需要重新读取整个数据集来进行批处理运算。
4. 回归
机器学习知识点(一)
原文:https://www.cnblogs.com/adtxl/p/11314349.html