吴恩达机器学习入门笔记2-模型评估

时间：2019-09-19 13:18:15 阅读：91 评论：0 收藏：0 [点我收藏+]

2 模型评估

2.1 数据集划分为训练集与测试集方法

常按照7：3的比例选择，若数据已经随机的话就取前70%作为样本集

2.1.1 留出法

直接将数据集D划分为两个互斥的集合

划分应保持数据分布一致性
存在多种划分方式，采用若干次随机划分、重复进行实验评估后取平均值作为评估结果
常见做法：2/3~4/5样本用于训练，剩余用于测试，测试集至少含30个样例

2.1.2 交叉验证法--k折交叉验证

将数据集D划分成k个大小相似的互斥子集，每次用k-1个子集的并集作为训练集，剩下一个作为测试集，进行k次训练与测试，返回k个测试结果的均值

通常k=10
采用不同划分方式例如10次10折交叉验证
留一法：m个样本中k=m-1 但样本量太大时计算复杂度高
典型分法：60%作为训练集，20%作为验证集，20%作为测试集，选择验证集误差最小的模型

2.1.3 自助法

每次随机挑选数据集D中一个样本放入数据集D‘ 再将该样本放回D后继续重复上述过程，最后得到训练集D‘，且D中有36.8%的数据未出现在D‘中，将这些数据作为测试集

这样的测试结果成为包外估计
改变了初始数据集分布，引入估计偏差，数据量不足时使用

2.2 调参

常用做法：给定变化范围与步长
两类参数：算法参数与模型参数，前者个数少，人工设定；后者个数多，学习产生
模型评估与确定仅使用部分样本作为训练集，得出最优模型后再用全部样本重新训练，才是最终模型

2.3 性能度量

回归任务最常用的性能度量为均方误差
\[ E(f;D)=\frac{1}{m}\sum_{i=1}^{m}(f(x_i)-y_i)^2\tag{2.1} \]
更一般，对于数据分布D和概率密度函数p(.)，均方误差描述为
\[ E(f;D)=\int_{x\in D}(f(x)-y)^2p(x)dx\tag{2.2} \]

2.3.1 F1度量

F1是基于查准率与查全率的调和平均

2.4 0/1测试误差

\[ err(h_\theta(x),y)= \begin{cases} 1, & \mbox{if }h_\theta(x)\ge0.5,y=0\\&\mbox{ or if }h_\theta(x)<0.5,y=1 \\ 0, & \mbox{otherwise}\end{cases}\tag{2.3} \]

\[ Test error=\frac{1}{m_{test}}\sum_{i=1}^{m_{test}}err(h_\theta(x_{test}^{(i)}),y_{test}^{(i)})\tag{2.4} \]