反爬机制
反反爬策略
robots.txt协议:
文本协议,在文本中指定了可爬和不可爬的数据说明.该协议只是相当于口头的协议,并没有使用相关技术进行强制管制,所以该协议是防君子不防小人.参见淘宝robots.txt协议
什么是Anaconda
集成环境:基于数据分析和机器学习的开发环境
jupyter:超级终端.就是Anaconda集成环境中提供的一种基于浏览器的可视化开发工具
启动命令:jupyter notebook
cell都是有两种常用的模式
插入cell :a b
删除:x
切换cell模式:y,m
执行:shift+enter
tab 自动补全
shift+tab打开帮助文档
requests模块
示例一:基于搜狗编写一个简易的网页采集器
#解决中文乱码&UA伪装
wd = input('enter a key:')
url = 'https://www.sogou.com/web'
#存储的就是动态的请求参数
params = {
'query':wd
}
#即将发起请求对应的头信息
headers = {
'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/76.0.3809.100 Safari/537.36'
}
#一定需要将params作用到请求中
#params参数表示的是对请求url参数的封装
#headers参数是用来实现UA伪装
response = requests.get(url=url,params=params,headers=headers)
#手动修改响应数据的编码
response.encoding = 'utf-8'
page_text = response.text
fileName = wd+'.html'
with open(fileName,'w',encoding='utf-8') as fp:
fp.write(page_text)
print(wd,'下载成功!')
示例二:爬取豆瓣电影的电影详情数据
分析:当滚轮滑动到底部的时候,发起了一个ajax的请求,且该请求请求到了一组电影数据
headers = {
'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/76.0.3809.100 Safari/537.36'
}
url = 'https://movie.douban.com/j/chart/top_list'
start = input('enter a start:')
limit = input('enter a limit')
#处理请求参数
params = {
'type': '5',
'interval_id': '100:90',
'action': '',
'start': start,
'limit': limit,
}
response = requests.get(url=url,params=params,headers=headers)
#json返回的是序列化好的对象
data_list = response.json()
fp = open('douban.txt','w',encoding='utf-8')
for dic in data_list:
name = dic['title']
score = dic['score']
fp.write(name+':'+score+'\n')
print(name,'爬取成功')
fp.close()
示例三:post请求爬取肯德基餐厅位置信息
post_url = 'http://www.kfc.com.cn/kfccda/ashx/GetStoreList.ashx?op=keyword'
city = input('enter a city name:')
data = {
'cname': '',
'pid': '',
'keyword': city,
'pageIndex': '3',
'pageSize': '2',
}
#data参数表示的就是get方法中的params
response = requests.post(url=post_url,data=data,headers=headers)
response.json()
如何判定一张页面中是否存在动态加载的数据?
对一个陌生的网站数据进行爬取前一定要判定你爬取的数据是否为动态加载的!!!
示例三:药监局详情
#要请求到没一家企业对应的id
url = 'http://125.35.6.84:81/xk/itownet/portalAction.do?method=getXkzsList'
data = {
'on': 'true',
'page': '1',
'pageSize': '15',
'productName': '',
'conditionType': '1',
'applyname': '',
'applysn': '',
}
fp = open('./company_detail.txt','w',encoding='utf-8')
#该json()的返回值中就有每一家企业的id
data_dic = requests.post(url=url,data=data,headers=headers).json()
#解析id
for dic in data_dic['list']:
_id = dic['ID']
# print(_id)
#对每一个id对应的企业详情数据进行捕获(发起请求)
post_url = 'http://125.35.6.84:81/xk/itownet/portalAction.do?method=getXkzsById'
post_data = {
'id':_id
}
#json的返回值是某一家企业的详情信息
detail_dic = requests.post(url=post_url,data=post_data,headers=headers).json()
company_title = detail_dic['epsName']
address = detail_dic['epsProductAddress']
fp.write(company_title+':'+address+'\n')
print(company_title,'爬取成功!!!')
fp.close()
原文:https://www.cnblogs.com/yinhaiping/p/11413950.html