数据挖掘--大话设计挖掘整理--Ch1

时间：2014-02-09 16:23:36 阅读：345 评论：0 收藏：0 [点我收藏+]

定义：数据挖掘（Data Mining）就是从大量的、不完全的、有噪声的、模糊的、随机的数据中，提取隐含在其中的、人们事先不知道的、但又是潜在有用信息和知识的过程。

-大量的：大数定率（好象是频数和概率之间的关系）

-不完全的：缺失值

-噪声：仪器/测量/保护隐私人为的，就是偏离真实值的干扰数据

-模糊性：事物本身从属概念的不确定性；随机性：事件发生与否的不确定性；均是不确定性；《模糊集的应用》、《概率统计》

数据挖掘<商用领域>与知识发现（Knowledge Discovery in Database, KDD）<科研界>互为别名

数据挖掘：

--------------------------------

1、关联（association)规则挖掘

--------------------------------

·沃尔玛：啤酒尿布：25～35岁年轻父亲买尿布的同时有30%-40%会为自己买啤酒；零售/电信/保险/美容等设计各种套餐的捆绑销售；临床疾病诊断，如吸烟、环境污染、职业、肺部慢性病等于肺癌的发生之间的关联。

关联：事件之间的依赖关系；

最经典算法：Apriori(Agrawal和Verkamo于1994年提出)；基本思想：从事件集中寻找所有频繁出现的事件子集，然后在这些频繁事件子集中发现可信度较高的规则。

--------------------------------

2 聚类

--------------------------------

·驴友、网友会、读书会、棋友等

聚类：将数据对象划分成若干个类，在同一类的对象具有较高相似度，不同类中的对象差异较大。

聚类前不知道多少类，通过相似性的度量进行；如何度量？

2.1 基于距离度量相似性：划分方法（Partitioning Method）[k-means、k-Medoids]和层次聚类方法（Hierachial Method）[聚类、分裂算法]。

距离：欧几里德（Euclid）距离、曼哈顿（Manhattan）距离、切比雪夫（Chebyshev）距离、马哈拉诺比斯（Mahalanobis）距离；

<距离：满足四个条件：唯一性、非负性、对称性、三角不等式的函数>

-k-means核心思想：把n个数据对象划分为k个类，使每个类中的数据点到该类中心的距离平方和最小。

-流程：

　　输入：分类个数k，包含n个数据对象的数据集

　　输出：k个聚类

　　（1）从n个数据对象中任选k个对象作为初始的聚类中心；

　　（2）分别计算每个对象到各个聚类中心的距离，把对象分配到距离最近的聚类中；

　　（3）所有对象分配完成后、重新计算k个聚类的中心；<已聚集点的均值(means)>；

　　（4）与前一次计算得到的k个聚类中心比较，如果聚类中心发生变化，转（2），否则转(5)；

·类内数据点越近越好，类间数据点越远越好；优化目标：距离之和最小（若干个k试验，取最后得到的平方和最小）；尝试找出平方误差函数值最小的k个划分；

·若（3）中以各聚类均值点最近的点为聚类中心，则为(k-Medoids算法)；

·k-means对噪声和孤立点数据非常敏感（质心代表聚类）；k-medoids通过中心点，可有效消除该影响；

·适用于：结果簇是密集的，而簇间区别明显时效果较好；大规模数据集而言，算法相对可扩展，较高效率；

·不足：1）只能用于簇数据点的平均值有定义的情况；如涉及离散属性的数据-（改进的k-模算法，用‘模‘代替平均值，相似性度量来处理分类对象，用基于频率的方法来修改聚类的模）；k-means和k-模算法集合，处理数值类型和分类类型属性的数据，产生了‘k-原型‘算法；

　　 2）不适用于发现非球状的簇；非球状的簇用密度代替相似性，即基于密度（Density-based Method）的算法[DBSCAN、OPTICS、DENCLUE]；从数据对象的分布密度出发，把密度足够大的区域连接起来，可发现任意形状的簇，能有效去除噪声

2.2 层次方法（Hierarchical Method）：

按数据分层建立簇，形成一棵以簇为节点的数。自底向上-凝聚（Aggalomerative）层次聚类（即逐渐合并）；自顶向下-分裂发（Divisive）层次聚类。

缺点：1）可以在不同水平上对数据进行探测，且容易实现相似性度量或距离度量。但单纯的层次聚类算法终止条件含糊；执行合并/分裂簇的操作不可修正，可能导致聚类结果质量很低。

　　 2）需要检查和估算大量对象或簇才能决定簇的合并/分裂，可扩展性较差

*多阶段聚类（BIRCH; CURE; ROCK; Chameleon等）

*视觉聚类：基于建立的尺度空间理论建立；

应用于：地理数据分析（美国乔治亚大学Lan小组）、图像处理、蛋白质分析、中科环境与地理信息重点实验室GAMAX系统

基本思想：将数据集看作图像，将数据建模问题看作认知问题，通过模拟认知心理学的格式塔原理与生物视觉原理解决问题。

通过引进类的生存寿命概念，给出了类的认知定义，解决了聚类的有效性问题。数学上严格证明了结构的因果性即类的演化单调性，由此形成了尺度空间聚类的一般性理论框架。

·聚类的基本原则：相似率、连续率、闭合率、对称率

--------------------------------

3 预测

--------------------------------

·周易建立在阴阳二元论基础上，对天地万物进行性状归类，精确到可以对事物的未来发展做出较为准确的预测；（事物间的相似性、关联性、全息性）；

首先要了解事物的属性即状态信息、利用已经获得的事物间的相似性和关联性（对历史事件的学习而积累的经验），对事物的未来状况做出判断；

预测：通过对反映了输入与输出之间的关联性（内在规律和历史数据）的学习，得到预测模型，再利用该模型对未来数据进行预测的过程。

数据建模：基于数据建立数学模型，相对于机理建模（基于物理、化学等专业基本原理）而言。-需要足够的历史数据；

机器学习：由历史输入输出数据学习得到参数b，确定具体表达形式y=f(x,b)，对新的x预测y。

冶金工业的产品表现质量问题/电力行业的设备状态机寿命评估、负荷预测、电力暂态稳定分析/铁路部门的轨道检测、交通流量预测、铁路票价制定、劳动定额的预测/银行的信用评价、贷款风险评估、反洗钱等工作。

*典型的机器学习方法：

>决策树方法

决策树分类：从属性-类别事例数据推理树状规则的分类方法，应用最为广泛，常用的有：ID3， C4.5。其中ID3选取具有最高信息增益的属性作为当前节点的分裂属性在；对样本的识别率比较高；不能回溯只能收敛到局部最优解；信息收益偏袒与属性取值较多的属性；只能处理离散值属性；训练样本过小或包含噪声时容易过度拟合；C4.5用信息增益比率作为选择标准；合并连续属性的值；可处理具有缺少属性值的训练样本；运用不同的剪枝技术避免过度拟合；K次交叉验证等；

·剪枝策略：前剪枝（pre-pruning）-通过建立某些规则限制决策树的充分生长；后剪枝（post-pruning）-充分生长完毕后再剪去不具有一般代表性的叶节点或分支（实践中更成功）；

>人工神经网络（Artificial Neural Networks）对人脑若干基本特性的抽象，有大量神经元通过丰富的连接构成多层网络，用以模拟人脑功能。只是个不依赖于模型的自适应函数估计器，可以实现任意的函数关系；

·可以对求解分类和回归进行预测；定量或定性的信息都可贮存在网络内的各神经元中；很轻的稳定性和容错性；

·缺点：容易陷入局部极小点；容易出现‘过拟合’使得泛化能力交叉；网络拓扑的确定没有成熟的理论指导；神经网络训练代价很高；其解不具有稀疏性且难以解释；

>支持向量机（Support Vector Machines， SVM）20世纪90年代Vapnic等人根据统计学习理论中结构风险最小化原则提出；

·即可求解分类问题，也可以用于回归问题；从线性可分的二分类问题开始建模，再逐步向线性不可分问题、非线性问题深入，最后推广到线性和非线性的回归问题建模；

最优分类线；

前苏联人Vapnik等1995年建立以分类间隔最大化为目标，以分类面将样本全部区分正确为约束条件的二次优化模型；

约束条件放宽为‘允许分错’以处理线性不可分问题

将输入数据变换到一个高位空间，原来低维空间的曲面变成了平面以求解最优分类超平面来处理分类面为曲面的分类问题

1998年微软研究院的John C .Plan提出最快的求解二次规划的SMO算法

‘不敏感损失函数’将样本点分成误差绝对值小于e和大于e两类以扩展为求解回归问题；

·优势：解决小样本、非线性及高维模式识别问题中表现出许多特有的优势；建立在计算学习理论的结构风险最小化原则；具简洁的数学形式，能进行直观的几何解释；具有良好的泛化能力；避免了局部最优解；需要人为设定的参数少；

缺点：太大规模的数据集，SVM要解凸二次规划而使算法效率很低，甚至无法进行；SVM对奇异值的稳健性不高；SVM的解不具有稀疏性，存在大量冗余支撑向量；参数没有很好的选择策略

>正则化方法

基于正则化的框架模型：Lasso模型和推广的Lasso模型（数据L1正则化模型，都是凸优化问题）、L1/2正则化模型及其迭代阈值算法

--------------------------------

4 序列和时间序列

--------------------------------

序列就是被排除一列的对象（事件），元素间顺序非常重要；

时间序列分析是指对大量时间序列数据的分析找到特定的规则和感兴趣的特性，从而实现对未来状态的预测

数据挖掘工具：

IBM 的Intelligent Miner：1996年推出；包含多种统计方法和挖掘算法；

Unica Model1：一款典型的、针对市场营销和策划行业而研发的软件；涵盖了响应模型、交叉销售模型、客户价值评估模型、市场细分模型等；

SAS：

SPSS：

WEKA：

http://www.datamininglab.com

数据挖掘--大话设计挖掘整理--Ch1

原文：http://www.cnblogs.com/idengzix86/p/3541178.html

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年09月23日 (328)
2021年09月24日 (313)
2021年09月17日 (191)
2021年09月15日 (369)
2021年09月16日 (411)
2021年09月13日 (439)
2021年09月11日 (398)
2021年09月12日 (393)
2021年09月10日 (160)
2021年09月08日 (222)