中文分词是中文文本处理的一个基础性工作,结巴分词利用进行中文分词。其基本实现原理有三点:
安装(Linux环境)
下载工具包,解压后进入目录下,运行:python setup.py install
模式
接口
实例
#! -*- coding:utf-8 -*- import jieba seg_list = jieba.cut("我来到北京清华大学", cut_all = True) print "Full Mode:", ‘ ‘.join(seg_list) seg_list = jieba.cut("我来到北京清华大学") print "Default Mode:", ‘ ‘.join(seg_list)
结果
实现原理
1.
python中文分词:结巴分词,布布扣,bubuko.com
原文:http://www.cnblogs.com/kaituorensheng/p/3595879.html