首页 > 编程语言 > 详细

机器学习之聚类算法

时间：2017-03-02 17:15:27 阅读：244 评论：0 收藏：0 [点我收藏+]

（一）K-means

提到k-means不得不说的许高建老师，他似乎比较偏爱使用这种聚类方法，在N个不同场合听到他提起过，k-means通过设置重心和移动中心两个简答的步骤，就实现了数据的聚类。下面就来介绍下k-means算法。

一、数值属性距离度量

度量数值属性相似度最简单的方法就是计算不同数值间的“距离”，如果两个数值之间“距离”比较大，就可以认为他们的差异比较大，而相似度较低；换而言之，如果两数值之间“距离”较小，可认为他们的差异比较小，相似度较高。

例如，根据身高数据，比较数值间的距离，对未标签的篮球运动员和体操运动员的进行聚类，准确率会比较高。

令两个n维数值分别为： $技术分享$ 和 $技术分享$ ，那么这两个数值之间的“距离”可以用如下方法进行度量：

曼哈顿距离：

曼哈顿距离之所以这么命名，就是其度量的距离类似于城市中两个点的街区距离：

$技术分享$

欧几里德距离：

欧几里德距离就是我们常用的两点之间的直线距离：

推广到一般情况：

闵可夫斯基距离：

闵可夫斯基又称为 $技术分享$ 范式，可以看出：当h=1时，它表示曼哈顿距离（ $技术分享$ 范式）；当h=2时，它表示欧几里德距离（ $技术分享$ 范式）；当 $技术分享$ 时的闵可夫斯基距离又称为上确界距离（ $技术分享$ 范式、切比雪夫距离）。

一、概述

k-means算法从字面上看分两个部分：1、k，这里的k是需要聚类的簇的数量，也就是说将样本分为k类；2、means，顾名思义，利用到求平均值。其核心思想是将样本分为K类，使得类之间的样本距离大，而类之内的样本距离小。

二、算法

假设有训练集 $技术分享$ ，因为没有标签，k-means算法是无监督算法。

算法描述：

1. 随机初始化k个聚类重心 $技术分享$ ；

2. 将每个数据跟各重心比较，找出离此数据最近的重心，既是其所属的簇；

3. 计算每个簇的重心，并重置 $技术分享$ ；

4. 重复步骤2-4，直至收敛。

伪代码：

1. Initialize cluster centroids

2. Repeat until convergence {

For every i, set

For each j, set

}

敛散性：

我们定义失真函数（distortion function）为：

J度量的是训练集 $技术分享$ 和聚类重心 $技术分享$ 的距离的平方和。通常，通过重心的不断迭代，J的数值不断减小直至收敛至一常数。然而，由于J是非凸函数，因此，在初始化重心时需要尝试多个初始值，最后选择使J最低的初始值，以防陷入局部收敛。

时间、空间复杂度：

时间复杂度：O(tKmn)，其中，t为迭代次数，K为簇的数目，m为训练样本数，n为维数；

空间复杂度：O((m+K)n)，其中，K为簇的数目，m为训练样本数，n为维数。

三、实例

（1）假设我们的原始数据如图1所示，为没有标注类别的散点。目标是运用k-means算法将这些点划分为两个不同的类。

技术分享

图1

（2）随机的初始化两个类的重心（分别利用红蓝亮色的“X”号表示），如图2所示。

技术分享

图2

（3）分别计算所有点和两个重心的距离（一般计算欧几里德距离），每个点和哪个重心最近，就将该点和对应的中心划分到同一个簇中。

技术分享

图3

（4）重新计算每个簇的中心，将原有的中心替换。图4

技术分享

图4

（5）不断重复步骤（3）（4）的方法，直到重心收敛，所得到的两个簇就是聚类结果。

技术分享

技术分享

技术分享

下面是一个身高和体重的散点图，利用k-means算法将散点分为3个类，每个类的人群的分别适合穿着尺寸为S、M、L号的T-shirt。可以看出对于这个问题，k-means算法的聚类效果比较好。

技术分享

技术分享

未完待续......

机器学习之聚类算法

原文：http://www.cnblogs.com/zyber/p/6490981.html

踩

(0)

赞

(0)

举报

评论一句话评论（0）

分享档案

更多>

2021年09月23日 (328)
2021年09月24日 (313)
2021年09月17日 (191)
2021年09月15日 (369)
2021年09月16日 (411)
2021年09月13日 (439)
2021年09月11日 (398)
2021年09月12日 (393)
2021年09月10日 (160)
2021年09月08日 (222)

最新文章

更多>

教程昨日排行

更多>

友情链接

汇智网 PHP教程插件网

关于我们 - 联系我们 - 留言反馈 - 联系我们:wmxa8@hotmail.com

© 2014 bubuko.com 版权所有

打开技术之扣，分享程序人生！