1.交叉验证
- 将全部训练集S分成k个不相交的子集,{S1,S2,...,Sk},假设训练样本有m个,那么每个子集有m/k个训练样例
- 对于模型集合M中的一个Mi,每次挑选k-1个子集{S1,S2,...,Sj-1,Sj+1,...,Sk}做训练,得到假设函数hij,用剩下一个子集Sj做训练,得到经验误差εij
- 计算Mi的平均经验误差,选出平均经验误差最小的模型Mi,用全部训练集S做训练得到最终的hi
2.异常检测
- 假设样本有n维,并且符合高斯分布,求得每一维的μj,σj2
- 对于新样本X直接计算其密度px

- 如果密度值小于某一阈值ε,则表示该样本异常
这里ε是通过交叉验证得到的,也就是说在进行异常检测时,前面的px的学习是用的无监督,后面的参数ε学习是用的有监督。因为在异常检测中,异常的样本数量非常少而正常样本数量非常多,属于不平衡二类问题,因此不足以学习到好的异常行为模型的参数,因为后面新来的异常样本可能完全是与训练样本中的模式不同。
机器学习中的一些概念,布布扣,bubuko.com
机器学习中的一些概念
原文:http://www.cnblogs.com/Rosanna/p/3677380.html