线性回归（一）

时间：2019-03-10 10:38:59 阅读：199 评论：0 收藏：0 [点我收藏+]

什么是机器学习？

机器学习：研究如何通过计算的手段，利用经验来改善系统自身的性能。

机器学习分为监督学习和非监督学习。

监督学习（Supervised learning）

从给定的训练数据集中学习出一个函数（模型参数），当新的数据到来时，可以根据这个函数预测结果。监督学习的训练集要求包括输入输出，也可以说是特征和目标。

常见的有监督学习算法：回归分析和统计分类

技术分享图片

非监督学习（Unsupervised learning）

输入数据没有被标记，也没有确定的结果。样本数据类别未知，需要根据样本间的相似性对样本集进行分类（聚类，clustering）试图使类内差距最小化，类间差距最大化。

在实际应用中，不少情况下无法预先知道样本的标签，也就是说没有训练样本对应的类别，因而只能从原先没有样本标签的样本集开始学习分类器设计。

线性回归

在对机器学习这门学科有了一个基本的认识后，我们就要正式开始进行模型算法的学习了。

在线性回归这部分，这篇博客主要从以下几个部分来讨论：

模型定义
损失函数
参数估计

以下笔记来自吴闻达老师的机器学习视频。

模型定义

技术分享图片

以上是监督学习问题的图示描述，我们的目标是，给定训练集，学习函数h：X→Y，使得h（x）是对于y有较好的预测值。

h（x）代表的是一个假设集合（Hypothesis ），我们要做的就是从这个假设集合中找出预测效果最好的那一个假设。

技术分享图片

损失函数（Cost Function）

之前举的例子，关于房价的预测问题，是一个单变量的回归问题，输入数据只有x维度为1，

我们建立的模型是，我们的目标是让这个直线尽可能的拟合所有数据，

即从数据的中心穿过，让我们的每个预测值h（x）与我们的已知数值y尽可能的接近。

那么，我们应该怎么选择最好的模型呢？通过求解参数theta1和theta2.

技术分享图片

我们可以通过使用 cost function(损失函数)来测量我们的假设的准确性。这需要使用来自x的输入

和实际输出y的假设的所有结果的平均差（实际上是平均值的更好的版本），如下。

技术分享图片

说明：其实损失函数 J 计算的是h（x）与真实值y之间的垂直距离的平方和均值。

关于为什么多一个1/2的问题，是为了以后求导方便，不用太在意这个。

技术分享图片

为了问题描述的方便，首先使用上图右边的简单模型，只有一个参数theta1.

下图是对数据样本点”X“的拟合状态，

技术分享图片

当在上图中我们随意旋转h（x），将会得到不同的 J 值，可以得到下面的关于theta1 损失函数 J 的图像：

技术分享图片

当同时考虑两个参数值 theta1和theta0时，损失函数的图像是这样的，被称为bowl-shape function，碗状的

技术分享图片

下图的右边是上面三维图像的二维展示，那一圈一圈的椭圆被称为“等高线”（类似地理上的等高线），每一个椭圆上的不同点的 J 值都是相等的，

如图中绿色椭圆上的三个点，越靠近中心的椭圆 J 值越小。

技术分享图片

上面左图对应的是右图中用绿色圆圈标注的点（theta1=800，theta0=-1.5），对应的模型h（x）的图像，右图中每一个不同的点，

都会在左图中对应一个不同的图像，如下：

技术分享图片

当然，我们理想的情况是类似上图的情况，我们取的（theta1，theta0）出现图中的中心theta0=450,theta1=0.12，

在这个点可以是损失函数达到最小，趋近于0.这样我们就求得了模型参数theta0和theta1，进而得到最佳的假设h（x）。

参数估计：

Gradient Descent（梯度下降）

我们有了假设模型h（x），和损失函数 J，现在来讨论如何求得theta1和theta0的方法，梯度下降。我们的问题描述如下：

技术分享图片

需要不断迭代，求得使损失函数 J 达到最小的theta1和theta0.

关于梯度下降的理解：

假设你现在站在两座山包上的其中一座，你需要以最快的速度下到山的最低处。每到达一个新的地方，

都选择在该点处梯度最大的方向下山即可。如图：

技术分享图片

梯度下降算法表示如下：其中标出了梯度（蓝框内）和学习率（α > 0），梯度在这里通俗的说就是函数 J 的偏导数。

注意：梯度下降算法对局部最小值敏感，梯度下降可能收敛在局部最小，不能保证收敛到全局最小值。

技术分享图片

说明：在计算机科学中，x：=x+y表示，先计算x+y的结果再赋值给变量x，类似先计算a=x+y，然后使x的值等于a。

下图为梯度为正、负的情况,theta的更新是不一样的：

技术分享图片

关于参数更新的问题，theta1和theta2必须同时更新，下图左边为正解，即不能使用更新过后的theta0来进一步更新theta1

（这将是后面要讲到了另一种算法）。

技术分享图片

关于学习率α的问题：

当a过小的时候，迭代步长太小，梯度下降得太慢；

当a过大的时候，迭代步长过大，梯度无法收敛到最小值，而发生左右震荡的现象。

技术分享图片

当固定a时，梯度下降法依然可以收敛到最小值（局部），

技术分享图片

因为，当我们越靠近最小值时，我们的梯度越小，反应在上图就是越来越平缓，所以上面蓝色方框中的表达式会越来越小，

然后乘上a也越来越小，证明我们迭代的步长会逐步变小，即使我们使用的是固定不变的学习率a。

Gradient Descent For Linear Regression

（在线性回归中使用梯度下降）

技术分享图片

其推导过程如下，分别对 J 求关于theta0和theta1的偏导数：

技术分享图片

得到下面应用于线性回归的梯度下降算法：

技术分享图片

通过对以上算法的不断迭代，我们求得了最好的假设h（x），其中红色“x”的轨迹，就是算法迭代的过程。

技术分享图片

线性回归（一）

原文：https://www.cnblogs.com/CuteyThyme/p/10504002.html

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年09月23日 (328)
2021年09月24日 (313)
2021年09月17日 (191)
2021年09月15日 (369)
2021年09月16日 (411)
2021年09月13日 (439)
2021年09月11日 (398)
2021年09月12日 (393)
2021年09月10日 (160)
2021年09月08日 (222)

线性回归（一）

什么是机器学习？

监督学习 （Supervised learning）

线性回归

模型定义

损失函数（Cost Function）

参数估计：

Gradient Descent（梯度下降）

Gradient Descent For Linear Regression

（在线性回归中使用梯度下降）

监督学习（Supervised learning）