网络爬虫学习笔记 1

时间：2020-01-15 22:43:33 阅读：120 评论：0 收藏：0 [点我收藏+]

网络爬虫的定义：

从网站的一个页面（通常为首页），读取网页内容，找到网页里其他链接的地址（用来寻找下一个网页），直到抓取完这个网站的所有网页。

网络爬虫的基本操作是抓取网页。

浏览网页的过程：

打开网页的过程是浏览器作为浏览的“客户端”，向服务器端发送一次请求，把服务器端的文件“抓”到本地再解释、展现。

浏览器的功能是把解析html代码（标记语言）转换成网页。

爬虫最重要的处理对象是URL，它根据URL地址获得所需要的文件内容，然后进行处理。

原文：https://www.cnblogs.com/claudia529/p/12198749.html

踩

(0)

评论一句话评论（0）

分享档案

更多>