1.用自己的话描述一下,什么是逻辑回归,与线性回归对比,有什么不同?
什么是逻辑回归:
首先,逻辑回归是一种分类(Classification)算法。比如说:
给定一封邮件,判断是不是垃圾邮件
给出一个交易明细数据,判断这个交易是否是欺诈交易
给出一个肿瘤检查的结果数据,判断这个肿瘤是否为恶性肿瘤
逻辑回归是互联网上最流行也是最有影响力的分类算法,也是深度学习(Deep Learning)的基本组成单元。
与线性回归对比,有什么不同:
1).线性回归要求因变量必须是连续性数据变量;逻辑回归要求因变量必须是分类变量,二分类或者多分类的;
比如要分析性别、年龄、身高、饮食习惯对于体重的影响,如果这个体重是属于实际的重量,是连续性的数据变量,这个时候就用线性回归来做;
如果将体重分类,分成了高、中、低这三种体重类型作为因变量,则采用logistic回归。
2).线性回归主要用来解决连续值预测的问题,逻辑回归用来解决分类的问题,输出的属于某个类别的概率,工业界经常会用逻辑回归来做排序。连续值预测有线性回归,对于离散值/类别预测逻辑回归
3)两者算法上的不同
2.自述一下什么是过拟合和欠拟合?
标准:
过拟合:过拟合是指为了得到一致假设而使假设变得过度严格。避免过拟合是分类器设计中的一个核心任务。通常采用增大数据量和测试样本集的方法对分类器性能进行评价。
欠拟合:对于训练好的模型,若在训练集表现差,在测试集表现同样会很差,这可能是欠拟合导致。欠拟合是指模型拟合程度不高,数据距离拟合曲线较远,或指模型没有很好地捕捉到数据特征,不能够很好地拟合数据。
自述:
过拟合:在训练集上表现得很好,但是在测试集中表现得恰好相反。如识别一只狗狗的模型,训练样本中的所有训练图片都是二哈。测试样本是一只金毛,最后输出的结果就是金毛不是一条狗。
欠拟合:样本不够或者算法不精确,测试样本特性没有学到,不具泛化性,拿到新样本后没有办法去准确的判断;如识别一只狗狗的模型,二哈被提取的特征比较少,导致训练出来的模型不能很好地匹配,表现得很差,甚至二哈都无法识别。
3.思考一下逻辑回归的应用场景有哪些?
用于分类:适合做很多分类算法的基础组件。
用于预测:预测事件发生的概率(输出)。
用于分析:单一因素对某一个事件发生的影响因素分析(特征参数值)。
那就是都属于两个类别之间的判断。逻辑回归就是解决二分类问题的利器。
如广告点击率,是否为垃圾邮件,是否患病,金融诈骗,虚假账号等等。
逻辑回归要求因变量必须是分类变量,二分类或者多分类的;比如要分析性别、年龄、身高、饮食习惯对于体重的影响,如果将体重分类,分成了高、中、低这三种体重类型作为因变量,则采用logistic回归。
常用于数据挖掘,疾病自动诊断,经济预测等领域。例如,探讨引发疾病的危险因素,并根据危险因素预测疾病发生的概率等。以胃癌病情分析为例,选择两组人群,一组是胃癌组,一组是非胃癌组,两组人群必定具有不同的体征与生活方式等。
原文:https://www.cnblogs.com/a131452/p/12770417.html