首页 > 其他 > 详细

高效词频分析

时间:2016-04-23 16:34:02      阅读:252      评论:0      收藏:0      [点我收藏+]

由于密码泄露越来越普遍,使得各类“密码分析”工具越来越多。比如最近很火的Pipal,由ruby编写的一款程序,可以分析出密码频率TOP N。但实际使用中发现效率较低。

实际上通过简单的bash命令就可以实现上述的功能:

cat password.txt | sort | uniq -c | sort -k1,1nr | head -10

提取password词频TOP10的密码

time cat pass.txt | sort | uniq -c | sort -k1,1nr | head -10 > result.txt
保存提取结果并记录所消耗时间

由于sort是C语言编写,效率远高于Pipal。在数据量较大的词频统计时,差距尤其明显。
实际测试 在虚拟机中两亿条数据获取top 10000 大概50分钟左右。

 

高效词频分析

原文:http://www.cnblogs.com/dongchi/p/5424792.html

(0)
(0)
   
举报
评论 一句话评论(0
关于我们 - 联系我们 - 留言反馈 - 联系我们:wmxa8@hotmail.com
© 2014 bubuko.com 版权所有
打开技术之扣,分享程序人生!