爬虫（二）urllib库数据挖掘

时间：2020-08-05 00:20:56 阅读：95 评论：0 收藏：0 [点我收藏+]

爬虫（二）urllib库数据挖掘

1、第一个爬虫

 1 from urllib import request
 2 
 3 url = r‘http://www.baidu.com‘
 4 
 5 # 发送请求,获取
 6 response = request.urlopen(url).read()
 7 
 8 # 1、打印获取信息
 9 print(response)
10 
11 # 2、打印获取信息的长度
12 print(len(response))

技术分享图片

2、中文处理

 1 # 数据清洗，用【正则表达式】进行数据清洗
 2 from urllib import request
 3 import re # 正则表达式模块
 4 
 5 url = r‘http://www.baidu.com‘
 6 
 7 # 发送请求,获取
 8 response = request.urlopen(url).read().decode() # 解码---（编码endecode()）
 9 
10 # 1、获取title标签的内容
11 pat = r‘<title>(.*?)</title>‘
12 
13 data = re.findall(pat,response)
14 
15 print(data)

技术分享图片

爬虫（二）urllib库数据挖掘

原文：https://www.cnblogs.com/zibinchen/p/13436630.html

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年09月23日 (328)
2021年09月24日 (313)
2021年09月17日 (191)
2021年09月15日 (369)
2021年09月16日 (411)
2021年09月13日 (439)
2021年09月11日 (398)
2021年09月12日 (393)
2021年09月10日 (160)
2021年09月08日 (222)