爬虫可以简单分为几步:抓取页面,分析页面和存储数据
在页面爬取的过程中我们需要模拟浏览器向服务器发送请求,所以需要用到一些python库来实现HTTP的请求操作,我们用到的第三方库有requests Selenium 和aiohttp
相关链接:
安装:
最好用的安装方式:pip 安装
pip3 install requests
验证是否安装成功
打开控制台进入命令行模式,首先输入python3 然后输入import requests 如果什么报错或提示说明安装成功
#!/usr/bin/env python # -*- coding:utf-8 -*- #__author__=v_zhangjunjie02 import requests
selenium是一种自动化测试工具,利用它可以驱动浏览器执行特定的动作,如点击,下拉等操作,对于一些JavaScript 渲染的页面来说,这种抓取方式非常有效,下面来看看selenium 的安装过程
相关链接
还是用pip 安装
pip3 install selenium
验证是否安装成功:
打开控制台进入命令行模式,首先输入python3 然后输入import selenium 如果什么报错或提示说明安装成功
原文:https://www.cnblogs.com/zhang-jun-jie/p/10465776.html