Python 批量爬取美女图片

时间：2020-04-07 20:13:48 阅读：86 评论：0 收藏：0 [点我收藏+]

#!/usr/bin/env python
# -*- coding: utf-8 -*-
import requests
import os
from concurrent.futures import ThreadPoolExecutor
from bs4 import BeautifulSoup


class MeiZi:
    def __init__(self):
        self.url = ‘http://jandan.net/ooxx‘
        self.path = os.path.join(os.getcwd(), ‘img‘)
        self.count = 1
        self.pool = ThreadPoolExecutor(20)
        self.headers = {
            ‘User-Agent‘: "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/79.0.3945.130 Safari/537.36"
        }

    def img_dir(self):
        ‘‘‘存放目录处理‘‘‘
        if not os.path.isdir(self.path):
            os.makedirs(self.path)

    def download(self, url, path):
        ‘‘‘下载‘‘‘
        by_data = requests.get(url=url, headers=self.headers).content
        with open(path, ‘wb‘) as f1:
            f1.write(by_data)
        print(‘%s 成功‘ % path)

    def a_link(self, a_list):
        ‘‘‘处理图片url‘‘‘
        for li in a_list:
            url = ‘http:‘ + str(li[‘href‘])
            path = os.path.join(self.path, "%s.jpg" % self.count)
            self.pool.submit(self.download, url, path)
            self.count += 1

    def run(self):
        self.img_dir()
        response = requests.get(url=self.url, headers=self.headers).text
        soup = BeautifulSoup(response, ‘lxml‘)
        page = soup.find(‘a‘, class_="previous-comment-page")
        a_list = soup.select(".commentlist > li > div > div > div > p > a")
        self.a_link(a_list)
        if page:
            url = ‘http:‘ + str(page.attrs[‘href‘])
            self.url = url
            self.run()
        else:
            return None


if __name__ == ‘__main__‘:
    M = MeiZi()
    M.run()

Python 批量爬取美女图片

原文：https://www.cnblogs.com/HByang/p/12655060.html

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年09月23日 (328)
2021年09月24日 (313)
2021年09月17日 (191)
2021年09月15日 (369)
2021年09月16日 (411)
2021年09月13日 (439)
2021年09月11日 (398)
2021年09月12日 (393)
2021年09月10日 (160)
2021年09月08日 (222)