首页 > 其他 > 详细

【机器学习】---密度聚类从初识到应用

时间:2018-01-19 20:19:59      阅读:234      评论:0      收藏:0      [点我收藏+]

一.前述

密度聚类是一种能降噪的算法。

二.相关概念

先看些抽象的概念(官方定义)

1.技术分享图片:对象O的是与O为中心,技术分享图片为半径的空间,参数技术分享图片,是用户指定每个对象的领域半径值。

2.MinPts(领域密度阀值):对象的技术分享图片的对象数量。

3.核心对象:如果对象O技术分享图片的对象数量至少包含MinPts个对象,则该对象是核心对象。

4.直接密度可达:如果对象p在核心对象q的技术分享图片内,则p是从q直接密度可达的。

5.密度可达:在DBSCAN中,p是从q(核心对象)密度可达的,如果存在对象链,使得技术分享图片,技术分享图片技术分享图片从关于技术分享图片和MinPts直接密度可达的,即技术分享图片技术分享图片

技术分享图片内,则技术分享图片技术分享图片密度可达。

6.密度相连:如果存在对象技术分享图片,使得对象技术分享图片都是从q关于和MinPts密度可达的,则称技术分享图片是关于技术分享图片和MinPts密度相连的。

PS:是不是很抽象 ,所以官方定义永远是官方定义确实理解不了。然后再看些非官方定义,其实就大概明白了。

先上图:

技术分享图片

解释下:这里有几个关键的概念。

领域其实就是某一个半径内,假设半径为5,我们先看P点以半径为5画的圆中包含3个点,而q点以半径为5画7个点  7>5,所以q就叫做核心对象。q不是核心对象。理解就是这么简单,再看看什么叫密度可达,见下图:

技术分享图片

0点以半径为5画圆与p点以半径为5画圆有交集,即O点以半径为5的领域内以P为中心店半径为5的领域内的点,则O密度可达P,O也密度可达q(在边界交点也算)。

从o点能密度可达p,也能密度可达q,则p,q叫密度相连。

再比如:

技术分享图片

q密度可达p1,p1密度可达p,则q密度可达p(间接的也是密度可达)!!!!

这里需要两个参数注意下:r半径,m阈值,即以r为半径内所包含的点,只有大于m阈值的点才能叫核心对象。

 以上理解了这些概念,但跟聚类有什么相连,实际上簇就是密度相连的最大的集合。即一个簇就是最大的密度相连的集合。

如果一个点不是核心对象,也就意味着不能密度可达,所以就是噪声点。(通俗理解就是一个点都不能画圆,怎么会有密度可达呢?)

比如下图:

技术分享图片

就是噪声点。

PS:总结下规律:

给定的m不够簇就会变多,比如下图:m分别是5,3,2

技术分享图片

 

解释:当是5的时候,圈红的边缘点不是核心对象,所以不能画圆,所以不会密度可达。当是2的时候,半径内的值大于阈值所以是核心对象,那么这堆数据有可能密度相连,形成一个簇。这也就是簇变多的原因。

r半径太大就会聚类到一起:如下图

技术分享图片

 

 所以Finally总结:要大一起大,要小一起小,参数这是最合适的。比如2,6图是合适的,4个簇。

 未完待续,持续更新中。。。。。。。。。。。。

 

      

【机器学习】---密度聚类从初识到应用

原文:https://www.cnblogs.com/LHWorldBlog/p/8318207.html

(0)
(0)
   
举报
评论 一句话评论(0
关于我们 - 联系我们 - 留言反馈 - 联系我们:wmxa8@hotmail.com
© 2014 bubuko.com 版权所有
打开技术之扣,分享程序人生!