首页 > 其他 > 详细

课时七、聚类

时间:2020-07-22 23:28:55      阅读:73      评论:0      收藏:0      [点我收藏+]

聚类

聚类定义

  • 对大量未知标注的数据集,按数据的内在相似性将数据集划分为多个类别,使类别内的数据相似度较大,而类别间的数据相似度较小--无监督

相似度计算方法

技术分享图片

  • Jaccard相似度的由来
    技术分享图片
  • 余弦相似度与Pearson相似系数
    技术分享图片

基本思想

  • 给定一个有N个对象的数据集,构造数据的k个簇,k<n 。满足以下条件:
    • 每个簇至少包含一个对象
    • 每个对象属于且属于一个簇
  • 满足条件的簇成为合理划分
  • 对于给定的类别数目k,首先给出初始划分,通过迭代改变样本和簇的隶属关系,使得每一次改进之后的划分方案都比前一次好

k-means算法

技术分享图片

  • k-means过程
    技术分享图片
  • 初值敏感
    • k-means++多了根据距离加权更新距离中心的操作
  • k-means的公式化解释
    技术分享图片
  • k-means聚类方法总结
    技术分享图片

Canopy算法

技术分享图片

聚类的衡量指标

技术分享图片

ARI

技术分享图片

AMI

技术分享图片

轮廓系数

技术分享图片
技术分享图片

课时七、聚类

原文:https://www.cnblogs.com/linyk/p/13363522.html

(0)
(0)
   
举报
评论 一句话评论(0
关于我们 - 联系我们 - 留言反馈 - 联系我们:wmxa8@hotmail.com
© 2014 bubuko.com 版权所有
打开技术之扣,分享程序人生!