不是搞算法的,但最近用到这个,所以按个人的理解总结一下要点,可能有理解上的错误,欢迎指正批评。
目前场景是用于可能性预测。
1.逻辑回归模型计算出来的是相对可能性,而非概率,所以非常适合topN选择等问题;如果用于分类,则其用于分割的阈值通过指标参数确定。总体上来说,更适合求topN。
2.仅能用于线性问题,其实很多数学不是很好的人,对这个理解不深入,在使用Logistic Regression时注意选择和target呈线性关系的feature。预先知道模型非线性时,果断不使用Logistic Regression,切勿以为随便塞入feature、维度足够多就总会得到一个较为靠谱的模型。其终究是线性拟合,只是对规律的简单近似,不符合哪些明显其它相关性函数的场景。
3.各feature之间不需要满足条件独立假设,但各个feature的贡献是独立计算的。对相关的条件,会自动通过训练分配参数。但LR是不会自动帮你combine 不同的features产生新feature(组合feature),而我们在做可能性预测时,组合feature正要性更高,所以千万别偷懒。
4.决策树等和逻辑回归的分歧是:逻辑回归对数据整体结构的分析优于决策树,而决策树对局部结构的分析优于逻辑回归。逻辑回归擅长分析线性关系,而决策树对线性关系的把握较差。虽然对付非线性关系是决策树的强项,但是很多非线性关系完全可以用线性关系作为近似,而且效果很好。线性关系在实践中有很多优点:简洁,易理解,可以在一定程度上防止对数据的过度拟合。逻辑回归对极值比较敏感,容易受极端值的影响(因为所有样本在最终的模型中相互影响),而决策树在这方面表现较好。
5.决策树由于采用分割的方法,所以能够深入数据细部,但同时失去了对全局的把握。一个分层一旦形成,它和别的层面或节点的关系就被切断了,以后的挖掘只能在局部中进行。同时由于切分,样本数量不断萎缩,所以无法支持对多变量的同时检验。而逻辑回归,始终着眼整个数据的拟合,所以对全局把握较好。但无法兼顾局部数据,或者说缺乏探查局部结构的内在机制。
6.利用决策树对局部数据结构优越的把握能力增加逻辑回归的效力。在具体做法上有几种,一种是从决策树分析中找出数据局部结构,作为在逻辑回归中构建依变量(interaction)的依据。另一种是在需要对预测因子进行离散化处理时,利用决策树分析决定最佳切分点。还有一种是把决策树分类的最终结果作为预测变量,和其他协变量一起代入回归模型,又称为“嫁接式模型”。从理论上讲,嫁接模型综合了决策树和逻辑回归的优点。最终节点包含了数据中重要的局部结构,而协变量可以拾补被决策树遗漏的数据整体结构。
原文:http://www.cnblogs.com/fernnix/p/4100871.html