classification

时间：2019-06-15 23:14:19 阅读：132 评论：0 收藏：0 [点我收藏+]

逻辑回归logistic regression

binary classification （01label）

引入sigmoid函数：\(g(z) = \frac{1}{1+e^{-z}}\)
由于\(g(z) = \frac{e^z}{e^z+1}\) 且 \(g(-z) = \frac{1}{1+e^z}\)
所以\(g(z) + g(-z) = 1\) (关于\((0,1)\)对称)
同时\(g(z)\)左边渐近线\(y=0\)，右边渐近线\(y=1\)，\(g(0) = 0.5\)
脑补图像

新的hypothesis函数改为 \(h_{\theta} = g(x\theta) = p(y=1|x;\theta)\) (why?)
其中x是一组example的vector，不是整个X
由上式知\(h\ge 0.5\)时估计\(y=1\)，否则估计\(y=0\)
所以也就是说\(X\theta \ge 0\)时估计\(1\)

那可能就要问了，那这个g是来干嘛的，搞笑的吗？直接看\(x\theta\)不行么？
一个原因是：代价函数需要用到估计值和真实值，不应该偏差太大（why?）

linear regression的代价函数作用到现在的估价函数上不能保证bowl shape
设计新的代价函数\(J(\theta) = \frac 1 m \sum_{i=1}^m cost(h_{\theta}(x^{(i)}),y^{(i)})\)
(没有平方的求导需要，不需要2m了)

其中\(cost(h_{\theta}(x), y)\)为一个分段函数
当y=1时，\(cost = -log(h_{\theta}(x))\) 脑补一下图像
当y=0时，\(cost = -log(1-h_{\theta}(x))\) 脑补一下图像
也就是说离目标值越近，cost接近0，离目标值远，cost越趋于无穷大
想到可以化简这个分段函数变成跟y有关，没想出来
可以这样：\(cost = -y\ln(h_{\theta}(x)) -(1-y)\ln(1-h_{\theta}(x))\)

要使用gradient decent, 还得求导
~~看着就不想求~~ 经过一波大力求导
推出来，竟然跟linear regression的那个形式上完全一样
也是 \(\theta_j\) -= \(\frac 1 m \sum_{i=1}^m (h_{\theta}(x^{(i)}) - y^{(i)})x^{(i)}\)

fminunc？

多label型

one-vs-all
一个一个区分
分别计算出\(p(y=i|x)\) (不一定和为1)
取估计值最大的

underfit, just right, overfit

underfit 如用直线去拟合曲线状的东西
overfit：如强行用n次多项式去拟合n+1个点，导致图像十分鬼畜明显无法达到预测效果
当feature过多，可能使J特别小，但预测效果却不如意

开始投入数据之前
可以先自己看看有没有一些无意义的feature，或之后会学一个自动筛选的算法
另一个方法是regularization，不扔掉feature，但通过调整\(\theta\)控制其影响力

classification

原文：https://www.cnblogs.com/acha/p/11028898.html

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年09月23日 (328)
2021年09月24日 (313)
2021年09月17日 (191)
2021年09月15日 (369)
2021年09月16日 (411)
2021年09月13日 (439)
2021年09月11日 (398)
2021年09月12日 (393)
2021年09月10日 (160)
2021年09月08日 (222)