首页 > 其他 > 详细

吴恩达机器学习入门笔记1-术语

时间:2019-09-19 12:50:49      阅读:105      评论:0      收藏:0      [点我收藏+]

1 术语

1.1 泛化

学习得到的模型适用于新样本的能力称为泛化能力

1.2 过拟合-关键障碍

学习器能拟合样本所有数据,即把训练样本自身的一些特点当作所有潜在样本的一般性质,导致泛化能力下降的现象。

  • 即假设函数中特征变量过多
  • 只可缓解,无法消除
  • 常见导致因素:学习能力过好

技术分享图片

技术分享图片

1.2.1 解决方法

  1. 人为或者利用算法舍去影响程度不高的特征变量
  2. 正则化:保留所有特征变量但降低参数大小

1.3 错误率

分类错误样本数占样本总数的比率,==设定样本数少的类别作为正类别==

1.3.1 查准率P(Precision)

机器预测的正结果中用户真正需要的结果所占的比例 eg:判断得癌症人中,真正得癌症的人的比率

1.3.2 查全率/召回率R(Recall)

用户真正需要的结果中机器成功预测结果所占的比例 eg:所有得癌症的人中,能判断出得癌症人的比率

  • 与P互斥

技术分享图片

1.3.3 权衡查准率与查全率

通过改变判断阈值,高阈值,P高R低;低阈值P低R高

技术分享图片

1.3.4 BEP

查准率与查全率相等时的值

1.3.5 利用调和平均判断基于查准率与查全率算法的好坏

各统计变量倒数算术平均数的倒数。给较低的值更高的权重
\[ \frac{1}{F1}=\frac{1}{2}(\frac{1}{P}+\frac{1}{R})\tag{1.1} \]

\[ F_1=2\frac{PR}{P+R}\tag{1.2} \]

  • 结果恒小于算术平均
  • \(F_1\in[0,1]\),越高越好

1.4 卡方分布

标准正态分布的平方

1.5 布尔数据

即逻辑数据类型,取值为0或1

吴恩达机器学习入门笔记1-术语

原文:https://www.cnblogs.com/jestland/p/11548440.html

(1)
(1)
   
举报
评论 一句话评论(0
关于我们 - 联系我们 - 留言反馈 - 联系我们:wmxa8@hotmail.com
© 2014 bubuko.com 版权所有
打开技术之扣,分享程序人生!