[Python] 爬虫系统与数据处理实战（小象学堂）Part.1

时间：2020-03-16 01:43:43 阅读：109 评论：0 收藏：0 [点我收藏+]

爬虫技术基础

技术分享图片

HTTP

应用层协议
无连接：每次连接只处理一个请求（手机给电脑传数据，传完就拔线；有连接，socket通信，三次握手）
无状态：每次连接、传输都是独立的
HEADER（头信息）、body（数据）
Request（Client->Server）、Response（Server->Client）
Request 的 HTTP Header
- Charset：编码，Python默认utf-8
- Encoding：源代码压缩方式，不写不压缩
- keep-alive：不关闭socket连接
- User-Agent：客户端类型（手机、电脑打开淘宝网址，会自适应屏幕），爬虫代码中需要伪装成浏览器，通过服务器检查
- Cookie：服务端response发放给客户端，客户端下次访问时携带方便识别（买了课的用户才能看视频，门票，证件），用于需要登录才能获取数据的网站（微博），登录--获取cookie--设置到header--爬取
Request 方法
- GET：向服务器请求数据，只有header，没有body，安全（不修改服务器数据），抓网页用
- POST：向服务器发送内容，有header和body，不安全（可能修改服务器数据），抓API用
- Idempotent：幂等，多次操作结果不变

技术分享图片

CSS

DOM树

JavaScript

爬取原理

技术分享图片

如何记录抓取历史

记录已抓取网页，避免重复访问
如已经爬取了10w网页，又来了1个新网页，如何判断它是否在保存的10w个网页当中[爬虫陷阱]
保存在数据库中，效率较低（几十万以下可用）
用HashSet将访问的URL保存，只需O(1)代价就可查到是否访问过，消耗内存（URL可能很长）
- URL经MD5（都是16字节）或SHA-1等单向哈希后再保存到HashSet或数据库
- Java的HashTable是一个Hash表再跟一个链表，链表中保存碰撞结果
Bit-Map方法，建立一个BitSet，将每个URL经哈希函数映射到某一BIT
- Bloom Filter：使用了多个哈希函数映射URL，减少碰撞，提高空间利用率，只能插入不能删除
- pip install murmurhash3 bitarray
- pip install pybloomfilter

技术分享图片

如何提高效率

技术分享图片

总结

原文：https://www.cnblogs.com/cxc1357/p/12496896.html

踩

(0)

评论一句话评论（0）

分享档案

更多>