爬虫----初级概念的架构

时间：2019-02-23 00:01:01 阅读：216 评论：0 收藏：0 [点我收藏+]

每次遇到爬虫，总会听到python，php等等词，其实什么语言无所谓，只要会用就行了。当然，有些人听到爬虫，就会觉得很高级，还在写网站的时候就在想反扒技术什么的，搞得爬虫变成了一个神秘莫测的东西。然而，我想告诉你的是爬虫真的很简单，几分钟搞定它的基本架构，下面请跟我来。

首先，爬虫要做的事情是将获取网页信息，并且将信息保存在一个地方等待被调用。因此爬虫的架构宏观上就有三部分：

网页---》爬虫处理---》保存；

只要将这三个部分处理好了，爬虫也就会了。(基于python语言）

然而，从网页上获取数据，以及对数据进行处理，然后将数据进行存储，这些都是需要爬虫这部分要做的。下面我将对工具进行介绍：

1. 对网页结构要有足够的理解-----熟悉HTML语言

2.获取网页信息工具：requests包（python包）

import requests

variable = requests.get(url)

3.处理网页信息工具：BeautifulSoup（python包）

from bs4 import beautifulsoup

soup = beautifulsoup(variable)

待续。。。

4.信息存储工具（待续）

5.代码编辑器（pycharm）

原文：https://www.cnblogs.com/cittysteven/p/10421222.html

踩

(0)

评论一句话评论（0）

分享档案

更多>