以某州的乳腺癌数据集入手:
1 |
|
1 | print("Shape of cancer data: {}".format(cancer.data.shape)) |
1 | print("Sample counts per class:n{}".format( |
http://localhost:8888/notebooks/%E7%9B%91%E7%9D%A3%E5%AD%A6%E4%B9%A0.ipynb
k近邻算法亦可用于回归。从单一近邻开始。使用wave数据集,添加3个测试数据点。
1 | mglearn.plots.plot_knn_regression(n_neighbors=1) |
使用多个近邻进行回归,预测结果为邻居从平均值:
1 | mglearn.plots.plot_knn_regression(n_neighbors=3) |
用于回归的K近邻算法在sklearn的KNeighborsRegressor类中实现。用法与KNeigh 大专栏 MyBlogborsClassfier类似:
1 | from sklearn.neighbors import KNeighborsRegressor |
可用score方法评估模型,对于回归问题,这一方法返回的是R2分数。R2分数也叫做决定系数,是回归模型预测的优度度量,位于01(常数模型(总是预测y_train的平均值)完美预测)。
1 | print("R^2: ", reg.score(X_test, y_test)) |
查看所有特征取值对应的预测结果。创建一个由许多点组成的测试数据集并绘图:
1 | fig, axes = plt.subplots(1, 3, figsize=(15, 4)) |
考虑更多的点后,曲线更加平滑,,但拟合不够好
优缺点&参数:
KNeighbors有两个重要参数:邻居个数(3or5or..)和数据点之间距离的度量方法(默认欧氏距离)
优缺点:模型容易理解。构建最近邻模型的速度通常很快,但若训练集很大,预测速度可能会比较慢,不能处理很多特征的数据集。
原文:https://www.cnblogs.com/lijianming180/p/12433367.html