常按照7:3的比例选择,若数据已经随机的话就取前70%作为样本集
直接将数据集D划分为两个互斥的集合
将数据集D划分成k个大小相似的互斥子集,每次用k-1个子集的并集作为训练集,剩下一个作为测试集,进行k次训练与测试,返回k个测试结果的均值
每次随机挑选数据集D中一个样本放入数据集D‘ 再将该样本放回D后继续重复上述过程,最后得到训练集D‘,且D中有36.8%的数据未出现在D‘中,将这些数据作为测试集
回归任务最常用的性能度量为均方误差
\[
E(f;D)=\frac{1}{m}\sum_{i=1}^{m}(f(x_i)-y_i)^2\tag{2.1}
\]
更一般,对于数据分布D和概率密度函数p(.),均方误差描述为
\[
E(f;D)=\int_{x\in D}(f(x)-y)^2p(x)dx\tag{2.2}
\]
F1是基于查准率与查全率的调和平均
\[ err(h_\theta(x),y)= \begin{cases} 1, & \mbox{if }h_\theta(x)\ge0.5,y=0\\&\mbox{ or if }h_\theta(x)<0.5,y=1 \\ 0, & \mbox{otherwise}\end{cases}\tag{2.3} \]
\[ Test error=\frac{1}{m_{test}}\sum_{i=1}^{m_{test}}err(h_\theta(x_{test}^{(i)}),y_{test}^{(i)})\tag{2.4} \]
偏差:度量学习算法的期望预测与真实结果的偏离程度,刻画学习算法本身的拟合能力
方差:度量了来自同一分大小相同的不同训练集导致的学习性能的变化,刻画数据扰动所造成的影响
噪声:表达了当前任务上任何学习算法所能达到的期望泛化误差的下界,刻画学习问题本身的难度
偏差与方差冲突
训练集误差与交叉验证误差大,意味着模型偏差大,模型欠拟合
训练集误差很小但交叉验证误差很大,意味着模型方差大,模型过拟合
横坐标为样本数,纵坐标为误差,==求训练误差与验证误差记得正则化项为0==
所有算法均为了按照一定准则找到最优的参数\(\theta\) ,\(\theta^TX\)即为决策边界的图形
原文:https://www.cnblogs.com/jestland/p/11548465.html