首页 > 其他 > 详细

nltk-比较中文文档相似度

时间:2014-09-17 10:30:22      阅读:484      评论:0      收藏:0      [点我收藏+]

nltk同时也能处理中文的场景,只要做如下改动:

  1. 使用中文分词器(如我选用了结巴分词)

  2. 对中文字符做编码处理,使用unicode编码方式

  3. python的源码编码统一声明为 gbk

  4. 使用支持中文的语料库

to be continue...


nltk-比较中文文档相似度

原文:http://my.oschina.net/kakablue/blog/314513

(0)
(0)
   
举报
评论 一句话评论(0
关于我们 - 联系我们 - 留言反馈 - 联系我们:wmxa8@hotmail.com
© 2014 bubuko.com 版权所有
打开技术之扣,分享程序人生!