首先必须明白什么是线性回归,
linear 线性:当y和x之间成比例,为直线时。
Regreesion 回归:即研究几个变量之间的关联关系,特别当因变量和自变量为线性关系时,它是一种特殊的线性模型。最简单的情形是一个自变量和一个因变量,且它们大体上有线性关系,这叫一元线性回归,即模型为Y=a+bX+ε,这里X是自变量,Y是因变量,ε是随机误差,通常假定随机误差的均值为0,方差为σ^2(σ^2大于0)σ^2与X的值无关。若进一步假定随机误差遵从正态分布,就叫做正态线性模型。
线性回归:所以可以认为线性回归就是给出一系列点用来拟合曲线 h(x)=theat+theatX(线性和非线性其实都一个意思,都是寻找合适的参数去满足已有数据的规律。拟和出来的方程(模型)一般用来内差计算或小范围的外差)
似然函数:我是这么理解的,比如说我们知道某个X的概率分布密度函数,但是这个概率分布有未知的参数,但是我想得到这个未知的参数(theat),然后我们就通过找出很多个已知的变量,把这些概率分布密度函数乘起来,这个就是似然函数。
最大似然函数:知道似然函数后,我们就要求出这个未知参数,我们要求的这个参数应该使得似然函数最大,即概率分布最大。
对于线性回归问题的分析流程:
给出一个函数模型,这个函数模型有很多个未知参数,然后我们代入很多观察数据,但是这样代入后的方程是很难解的,于是我们通过使用求解近似解,转化为求解误差最小化问题。列出误差项后,使用梯度下降或牛顿方法等求解最小值,确定未知参数。
Logistic/Sigmoid Regreesion Mode:
通过使用一个特定函数,将线性回归问题转化为分类问题,即通过使用这个函数使得y的值在0--1范围之内
期望风险(真实风险),可理解为 模型函数固定时,数据 平均的 损失程度,或“平均”犯错误的程度。 期望风险是依赖损失函数和概率分布的。
只有样本,是无法计算期望风险的。
所以,采用经验风险,对期望风险进行估计,并设计学习算法,使其最小化。即经验风险最小化(Empirical Risk Minimization)ERM,而经验风险是用损失函数来评估的、计算的。
对于分类问题,经验风险,就训练样本错误率。
对于函数逼近,拟合问题,经验风险,就平方训练误差。
对于概率密度估计问题,ERM,就是最大似然估计法。
Linear Regreesion 线性回归问题,布布扣,bubuko.com
原文:http://www.cnblogs.com/GuoJiaSheng/p/3871464.html