使用数据集iris, 验证Petal.Length, Petal.Width两个特征的分类能力。代码如下:
with(iris, plot(Petal.Length, Petal.Width, col=as.integer(Species))) text(2.2, 0.3, "setosa") text(3.0, 1.3, "versicolor") text(6.5, 1.7, "virginica")
效果如下,可以看出,Petal.Length, Petal.Width两个特征的分类能力很强:
调用kknn函数进行模型训练与预测,代码如下:
library(kknn) data(iris) m <- dim(iris)[1] #获取数据集记录条数 val <- sample(1:m, size =round(m/3), replace = FALSE, prob= rep(1/m, m)) #抽样,选取三分之二的数据作为训练集。 iris.learn <- iris[-val,] #选取训练集 iris.valid <- iris[val,] #选取验证集 #训练模型并进行预测分类 iris.kknn <- kknn(Species~Petal.Length + Petal.Width,iris.learn, iris.valid, k=7, distance=2) summary(iris.kknn) #查看分类结果 #判定分类准确性 fit <- fitted(iris.kknn) table(iris.valid$Species, fit)最终结果如下:
fit
setosa versicolor virginica
setosa 14 0 0
versicolor 0 21 1
virginica 0 1 13
可以看出,只有两个个记录被误分类。
以可视化方式呈现误分类情况,调用如下代码:
pcol <- as.character(as.numeric(iris.valid$Species)) plot(iris.valid[3:4], pch = pcol, col = c("green3", "red") [(iris.valid$Species != fit)+1])可视化结果见下图:
原文:http://blog.csdn.net/yucan1001/article/details/23037305