首页 > 其他 > 详细

[数据挖掘课程笔记]关联规则挖掘

时间:2015-10-23 01:33:05      阅读:278      评论:0      收藏:0      [点我收藏+]

 

两种度量:

     支持度(support)  support(A→B) = count(AUB)/N (N是数据库中记录的条数)

       自信度(confidence)confidence(A→B) = count(AUB)/count(A)

 

关联规则挖掘的基本两个步骤:

    1.找出所有的频繁项集

     2.由频繁项集产生强关联规则

      由于整个数据库十分庞大,所以对第一步来说,若使用穷举法,搜索空间将是2d,d是项的个数。所以优化算法主要需要优化第一步。而频繁项集里的项的数目远小于数据库数据的数目,所以,在第二步中,我们可以采用穷举法。

 

Apriori Algorithm

    频繁:support(A,B)>=min_sp

      几个原理:

      1.如果X在数据集D中是闭的,那么不存在X的超集Y的支持度与X的支持度相同。

      2.X是D中的极大频繁项集(闭的且频繁),那么不存在X的超集Y是频繁的。

      3.如果X不是一个频繁项集,那么它的超项集Y也一定不是频繁的。

 

[数据挖掘课程笔记]关联规则挖掘

原文:http://www.cnblogs.com/leeshum/p/4903285.html

(0)
(0)
   
举报
评论 一句话评论(0
关于我们 - 联系我们 - 留言反馈 - 联系我们:wmxa8@hotmail.com
© 2014 bubuko.com 版权所有
打开技术之扣,分享程序人生!