一、Jieba库基础知识
(1)jieba是优秀的中文分词第三方库
分词:通过特定手段获得每个单词
(2)jieba分词依靠中文词库,确定汉字之间的关联概率
(3)除了分词,用户还可以添加自定义词组
安装:(cmd命令行)pip install jieba
三种模式及对应的常用函数
精确模式 ——文本精确切分,不存在冗余 ——jieba.lcut() 返回一个列表型分词结果
全模式——把所有可能的词语都扫描出来,有冗余 ——jieba.lcut( s, cut_all = True) 返回列表
搜索引擎模式——精确模式基础上,对长词再次切分 ——jieba.lcut_for_search(s)
jieba.add_word(w) 向分词词典增加新词
二、实例
三、前期准备
找一份文件,将其内容复制到一个文本文档。
我在学习资料中找了《中共中央关于坚持和完善中国特色社会主义制度 推进国家治理体系和治理能力现代化若干重大问题的决定》,并将上述文档命名为 "政府工作报告.txt"。(我已经将这份文件粗略地做成了一份词云,详情请看 Python-好玩的词云)
词频统计代码如下:
import jieba excludes = {} txt = open("政府工作报告.txt", "r", encoding=‘gbk‘).read() words = jieba.lcut(txt) #分词处理,形成列表words counts = {} for word in words: if len(word) == 1: continue else: counts[word] = counts.get(word,0) + 1 for word in excludes: #删除counts内的词,多用于人物词频统计 del(counts[word]) items = list(counts.items()) items.sort(key=lambda x:x[1], reverse=True) for i in range(25): word, count = items[i] print ("{0:<10}{1:>5}".format(word, count))
得到25个出现词频最高的词汇:
制度 197 完善 126 坚持 118 体系 104 发展 91
健全 90 国家 79 治理 77 社会主义 69 人民 64
建设 63 机制 62 中国 57 推进 54 加强 54
社会 45 特色 43 能力 39 推动 38 领导 37
监督 37 工作 35 文化 35 全面 35 政治 30
原文:https://www.cnblogs.com/Anjoras-bk/p/12924696.html