首页 > Web开发 > 详细

爬虫(二)urllib库数据挖掘

时间:2020-08-05 00:20:56      阅读:60      评论:0      收藏:0      [点我收藏+]

标签:正则   ons   长度   ado   图片   一个   

爬虫(二)urllib库数据挖掘

1、第一个爬虫

 1 from urllib import request
 2 
 3 url = rhttp://www.baidu.com
 4 
 5 # 发送请求,获取
 6 response = request.urlopen(url).read()
 7 
 8 # 1、打印获取信息
 9 print(response)
10 
11 # 2、打印获取信息的长度
12 print(len(response))

 

技术分享图片

 

 技术分享图片

2、中文处理

 

 1 # 数据清洗,用【正则表达式】进行数据清洗
 2 from urllib import request
 3 import re # 正则表达式模块
 4 
 5 url = rhttp://www.baidu.com
 6 
 7 # 发送请求,获取
 8 response = request.urlopen(url).read().decode() # 解码---(编码endecode())
 9 
10 # 1、获取title标签的内容
11 pat = r<title>(.*?)</title>
12 
13 data = re.findall(pat,response)
14 
15 print(data)

 

技术分享图片

 

 

 

 

 

技术分享图片

 

爬虫(二)urllib库数据挖掘

标签:正则   ons   长度   ado   图片   一个   

原文:https://www.cnblogs.com/zibinchen/p/13436630.html

(0)
(0)
   
举报
评论 一句话评论(0
© 2014 bubuko.com 版权所有 鲁ICP备09046678号-4
打开技术之扣,分享程序人生!
             

鲁公网安备 37021202000002号