首页 > 其他 > 详细

<数据挖掘导论>读书笔记1

时间:2018-09-17 17:17:47      阅读:241      评论:0      收藏:0      [点我收藏+]

数据预处理:

1.聚集:将两个或者多个对象合并成单个对象。

 2.抽样:一种选择数据对象子集进行分析的常用方法。抽象方法:简单随机抽样 和渐进抽样

3.维度约:我觉得翻译的不好,英文明细是降维。降维技术:1.PCA(Principal components Analysis)是一种用于连续属性的线性代数技术,它找出新的属性,这些属性是原属性的线性组合,是相互正交的,并且捕获了数据的最大变差。2.SVD(Singular Value Decomposition)

4.特征子集选择 a:嵌入方法 b:过滤方法 c:包装方法

5.特征创建:由原来的属性创建新的属性。a.特征提取 b.映射数据到新的空间 c.特征构造

6.离散化和二元化

  离散化:将连续属性变换成分类属性

  二元化:连续和离散属性变换成一个或者朵儿二元属性

7.变量变换:用户变量的所有值的变换

简单函数

规范化或者标准化

 

相似度和相异性的度量

1.简单属性之间的相似度和相异度

标称的

序数的

区间的或者比率的

 

2.数据对象之间的相异度

欧几里得距离

闵克夫斯基距离

3.数据对象之间的相似度

余弦相似度

Jaccard相似度

Bregman散度

 

<数据挖掘导论>读书笔记1

原文:https://www.cnblogs.com/davidwang456/p/9662496.html

(0)
(0)
   
举报
评论 一句话评论(0
关于我们 - 联系我们 - 留言反馈 - 联系我们:wmxa8@hotmail.com
© 2014 bubuko.com 版权所有
打开技术之扣,分享程序人生!