Python数据分析8-----网页文本处理

时间：2018-07-17 21:38:02 阅读：226 评论：0 收藏：0 [点我收藏+]

1、去除网页的标签，如<br/>

from bs4 import BeautifulrSoup 
preData=BeautifulSoup(data,‘html.parser‘).get_text()

import re
#表示将data中的除了大小写字母之外的符号换成空格
preData=re.sub(r‘[^a-zA-Z]‘,‘ ‘,data)

words=data.lower().split()

#可以自己下载停用词
#nltk.download() 
words_notstop=[w for w in words if w not in stopwords]

sentence=‘ ‘.join(words)

原文：https://www.cnblogs.com/Lee-yl/p/9325995.html

踩

(0)

评论一句话评论（0）

分享档案

更多>