问题:
K-均值聚类是无监督学习算法
设数据集,其中,。
假设这个数据可以分为类。
把这个问题模型化:
,
其中代表第类的聚点(中心点、均值)。
该模型可以用EM算法进行训练:
初始化,。
E步:固定,最小化,显然
,
其中。
M步:固定,最小化
,,
。
直至收敛。
—————————————————————————————————————————————————————
下面介绍一款机器学习软件,便于理解各种机器学习算法,下载完后,解压。
第一步:
双击,进入图形界面。
第二步:在空白处,首先左击几次
然后,右击几次
数据集准备好之后,就开始选择算法,点击菜单栏
中的
比如,我们用欧几里得距离,选择2个分类,然后点击“Cluster”按钮,看结果就可以了,
。
—————————————————————————————————————————————————————
对于K-means算法的实现:
JAVA中Weka,OpenCV,Python中的Scikit-Learn等。
K-means clustering (K-均值聚类),布布扣,bubuko.com
原文:http://blog.csdn.net/zhangping1987/article/details/31345259