首页 > 编程语言 > 详细

爬当当网上python书籍的图片

时间:2019-12-19 16:03:50      阅读:92      评论:0      收藏:0      [点我收藏+]

 

1.分析网页代码,获取图片下载连接:http://img3m4.ddimg.cn/20/11/23473514-1_b_5.jpg


技术分享图片

 

 


 

2. python实现代码


技术分享图片
 1 import os
 2 import re
 3 import requests
 4 import time
 5 
 6 # 图片来源url
 7 url=http://search.dangdang.com/?key=python&act=input
 8 
 9 # 构建请求头
10 headers = {
11     User-Agent:Mozilla/5.0 (Linux; Android 6.0; Nexus 5 Build/MRA58N) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/79.0.3945.79 Mobile Safari/537.36
12 }
13 
14 # 获取网页HTML代码
15 response = requests.get(url=url,headers=headers)
16 html = response.text
17 # print(html)
18 
19 # 抓取图片名称
20 pic_name = re.findall(<a title=" (.*?)"  ddclick,html)
21 # print(pic_name)
22 
23 # 抓取图片url
24 pic_url = re.findall("<img src=‘(.*?)‘ alt",html)
25 pic_url2 = re.findall("<img data-original=‘(.*?)‘ src",html)
26 pic_url.extend(pic_url2)  # 把两个list合并起来
27 
28 # 创建文件夹
29 base_path = os.getcwd()#获取当前文件的绝对路劲
30 file_name = r爬图片#存放图片的文件夹名称
31 path = os.path.join(base_path,file_name)
32 if os.path.exists(path):#判断文件夹是否存在,不存在则创建一个名为file_name的文件夹
33     pass
34 else:
35     os.mkdir(path)
36 
37 # 把图片保存起来
38 for i in range(len(pic_url)):
39     rsp = requests.get(pic_url[i])
40 
41     # 创建图片名称
42     img = pic_name[i]+.jpg
43     img_name = os.path.join(path,img)
44 
45     with open(img_name,wb)as f:
46         f.write(rsp.content)
47         time.sleep(1)
48         print("正在下载第{}张图片".format(i))
View Code

爬当当网上python书籍的图片

原文:https://www.cnblogs.com/qihuang94/p/12067722.html

(0)
(0)
   
举报
评论 一句话评论(0
关于我们 - 联系我们 - 留言反馈 - 联系我们:wmxa8@hotmail.com
© 2014 bubuko.com 版权所有
打开技术之扣,分享程序人生!