首页 > 其他 > 详细

[NLP]文本去除非汉字字符

时间:2015-09-08 15:00:38      阅读:337      评论:0      收藏:0      [点我收藏+]

最近有个需求就是去除一个文本里面所有的非汉字字符。

unicide的汉字有个范围u4e00-u9fa5。所以这个范围内的留下来就可以了。

1 blog=u"【雅虎开始提示Chrome用户“升级”到Firefox】http://t.cn/RzHTFF5 国外有关浏览器、搜索引擎那些事儿,也是刀光剑影,恩怨江湖啊!@2gua ,你说尼?[挖鼻屎]"
2 blog_new = u""
3 for i in range(0,len(blog)):
4     if(blog[i]>=u\u4e00 and blog[i]<=u\u9fa5):
5         blog_new = blog_new+blog[i]
6         
7 print blog_new

 

[NLP]文本去除非汉字字符

原文:http://www.cnblogs.com/Sean-le/p/4791441.html

(0)
(0)
   
举报
评论 一句话评论(0
关于我们 - 联系我们 - 留言反馈 - 联系我们:wmxa8@hotmail.com
© 2014 bubuko.com 版权所有
打开技术之扣,分享程序人生!