挖掘频繁项集

时间：2018-11-20 21:33:17 阅读：147 评论：0 收藏：0 [点我收藏+]

一，Apriori算法

Apriori算法的基本思路：

产生L1候选集，剪枝（去掉L1里面不符合最小支持度的），连枝产生L2候选集，剪枝（去掉候选集不在数据集里的和不满足最小支持度的），产生L3。。。直到不能再产生新的候选集（具体判定就是连枝的时候，k-2项集不存在，这时不能生成k项集）

算法中需要注意的细节

为了在统计L1候选集的频次的时候，能把L1作为字典的健，要把L1进行frozenset。用map()函数，把list里面的每一个元素都转换成set，转换之后会有重复的set（set的不重复性指的是set内部）。

if a.issubset(b)：如果a是b里面的子集则返回为真

数据集要预处理转换成set形式，这样才能保证数据集的安全性

原文：https://www.cnblogs.com/yttas/p/9991667.html

踩

(0)

评论一句话评论（0）

分享档案

更多>