使用set去重的问题: 只要用到set就需要完整的数据集, 大量数据会导致OOM
大数据去重的唯一解决方案是布隆过滤器
[详解布隆过滤器的原理]( https://zhuanlan.zhihu.com/p/43263751)
计算bloom filter误判率
大数据去重与布隆过滤器
原文:https://www.cnblogs.com/bitbitbyte/p/13167793.html