中文分词工具jieba的使用

时间：2018-04-03 22:50:48 阅读：503 评论：0 收藏：0 [点我收藏+]

中文分词工具jieba的使用

1.进入到安装了全文检索工具包的虚拟环境中
- /home/python/.virtualenvs/py3_django/lib/python3.5/site-packages/
- 进入到haystack/backends/中
2.创建ChineseAnalyzer.py文件

技术分享图片

 import jieba
 from whoosh.analysis import Tokenizer, Token

 class ChineseTokenizer(Tokenizer):
     def __call__(self, value, positions=False, chars=False,
                  keeporiginal=False, removestops=True,
                  start_pos=0, start_char=0, mode=‘‘, **kwargs):
         t = Token(positions, chars, removestops=removestops, mode=mode, **kwargs)
         seglist = jieba.cut(value, cut_all=True)
         for w in seglist:
             t.original = t.text = w
             t.boost = 1.0
             if positions:
                 t.pos = start_pos + value.find(w)
             if chars:
                 t.startchar = start_char + value.find(w)
                 t.endchar = start_char + value.find(w) + len(w)
             yield t

 def ChineseAnalyzer():
     return ChineseTokenizer()

3.拷贝whoosh_backend.py为whoosh_cn_backend.py
```
cp whoosh_backend.py whoosh_cn_backend.py
```
4.更改分词的类为ChineseAnalyzer
- 打开并编辑 whoosh_cn_backend.py
- 引入from .ChineseAnalyzer import ChineseAnalyzer
- 查找
```
  analyzer=StemmingAnalyzer()
  改为
  analyzer=ChineseAnalyzer()
```
5.更改分词引擎
6.重新创建索引数据
```
python manage.py rebuild_index
```

中文分词工具jieba的使用

原文：https://www.cnblogs.com/yuanzhengchi/p/8711258.html

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年09月23日 (328)
2021年09月24日 (313)
2021年09月17日 (191)
2021年09月15日 (369)
2021年09月16日 (411)
2021年09月13日 (439)
2021年09月11日 (398)
2021年09月12日 (393)
2021年09月10日 (160)
2021年09月08日 (222)