- 选择合适的特征向量
- 从一个很简单的算法实现,交叉验证检验误差,作出学习曲线。看算法是否具有高偏差或高方差问题,再考虑是否选择增加特征量或者增加样本
- 发现误差后,手动分析误差类别,判断什么特征导致的误差,对误差进行优先级排序,先解决最多数量的
- ==在交叉验证集上==,为算法设定一个单一规则的数值评价指标进行评估,例如错误率。每次修改算法数值都能改变,帮助判断算法改进后的好坏程度
- 对于正例样本远大于反例样本的极端情况(偏斜类样本),用查准率和查全率和F值进行评估,precision和recall高为好的算法
- 作出F-阈值图像,选取最大F值时的阈值,此时算法的性能最好
- 多参数保证偏差小,训练集大保证方差小
吴恩达机器学习入门笔记8-构建大型机器学习系统的方法
原文:https://www.cnblogs.com/jestland/p/11548521.html