首页 > 编程语言 > 详细

Python数据分析8-----网页文本处理

时间:2018-07-17 21:38:02      阅读:224      评论:0      收藏:0      [点我收藏+]

1、去除网页的标签,如<br/>

from bs4 import BeautifulrSoup 
preData=BeautifulSoup(data,html.parser).get_text()

 

2、将标点符号等去掉,用正则表达式。

import re
#表示将data中的除了大小写字母之外的符号换成空格 preData
=re.sub(r[^a-zA-Z], ,data)

3、将文本中的单词小写化,并将data用空格分开

words=data.lower().split()

4、去掉停用词

#可以自己下载停用词
#nltk.download() 
words_notstop=[w for w in words if w not in stopwords]

5、将所有的词连接成一个句子

sentence= .join(words)

 

Python数据分析8-----网页文本处理

原文:https://www.cnblogs.com/Lee-yl/p/9325995.html

(0)
(0)
   
举报
评论 一句话评论(0
关于我们 - 联系我们 - 留言反馈 - 联系我们:wmxa8@hotmail.com
© 2014 bubuko.com 版权所有
打开技术之扣,分享程序人生!