爬虫的基本流程

时间：2018-08-11 22:52:52 阅读：262 评论：0 收藏：0 [点我收藏+]

1：发起请求

通过HTTP库向目标站点发起请求，即发送一个request,请求可以包含额外的headers等信息等待服务器的响应

2：获取响应的内容

如果服务器能响应，会得到一个response,Response的内容便是所要获得的野，页面的内容，类型有

可能有HTML,Json字符串，二进制数据(如图片视频)等类型

3：解析内容

得到的内容可能是HTML,可以是正则表达式，网页解析库进行解析。可能是二进制数据，可以做保存或进一步的处理

4：保存数据

保存形式多样，可以存为文本，也可以保存至数据库，或者保存特定的格式的文件。

（请尊重知识，转摘需经本人许可，并请注明出处）

原文：https://www.cnblogs.com/hunkhand/p/9461397.html

踩

(0)

评论一句话评论（0）

分享档案

更多>