【爬虫】随机获取UA

时间：2019-02-27 17:14:55 阅读：327 评论：0 收藏：0 [点我收藏+]

使用模块 fake-useragent

https://github.com/hellysmile/fake-useragent

1.安装模块

2.配置

# settings.py

‘‘‘下载器中间件‘‘‘
DOWNLOADER_MIDDLEWARES = {
   ‘Lagou.middlewares.RandomUserAgentMiddleware‘: 543,
    ‘scrapy.downloadermiddlewares.useragent.UserAgentMiddleware‘: None,
}

‘‘‘UA的类型‘‘‘
RANDOM_UA_TYPE = "random"

# middlewares.py
‘‘‘模仿middlewares的UserAgentMiddleware写的类‘‘‘
class RandomUserAgentMiddleware(object):
    """This middleware allows spiders to override the user_agent"""

    def __init__(self, crawler):
        # 实例化UserAgent()，从配置文件读取ua的类型
        super().__init__()
        self.ua = UserAgent()
        self.ua_type = crawler.settings.get("RANDOM_UA_TYPE","random")

    @classmethod
    def from_crawler(cls, crawler):
        return cls(crawler)

    # def spider_opened(self, spider):
    #     self.user_agent = getattr(spider, ‘user_agent‘, self.user_agent)

    def process_request(self, request, spider):
        def get_ua():
            # 通过反射获取随机UA
            random_ua =  getattr(self.ua,self.ua_type)
            return random_ua
        request.headers.setdefault("User-Agent", get_ua())

【爬虫】随机获取UA

原文：https://www.cnblogs.com/st-st/p/10444764.html

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年09月23日 (328)
2021年09月24日 (313)
2021年09月17日 (191)
2021年09月15日 (369)
2021年09月16日 (411)
2021年09月13日 (439)
2021年09月11日 (398)
2021年09月12日 (393)
2021年09月10日 (160)
2021年09月08日 (222)