首页 > 其他 > 详细

爬虫----初级概念的架构

时间:2019-02-23 00:01:01      阅读:212      评论:0      收藏:0      [点我收藏+]

每次遇到爬虫,总会听到python,php等等词,其实什么语言无所谓,只要会用就行了。当然,有些人听到爬虫,就会觉得很高级,还在写网站的时候就在想反扒技术什么的,搞得爬虫变成了一个神秘莫测的东西。然而,我想告诉你的是爬虫真的很简单,几分钟搞定它的基本架构,下面请跟我来。

首先,爬虫要做的事情是将获取网页信息,并且将信息保存在一个地方等待被调用。因此爬虫的架构宏观上就有三部分:

 

网页---》爬虫处理---》保存;

只要将这三个部分处理好了,爬虫也就会了。(基于python语言)

然而,从网页上获取数据,以及对数据进行处理,然后将数据进行存储,这些都是需要爬虫这部分要做的。下面我将对工具进行介绍:

1. 对网页结构要有足够的理解-----熟悉HTML语言

2.获取网页信息工具:requests包(python包)

import requests

variable = requests.get(url)

3.处理网页信息工具:BeautifulSoup(python包)

from bs4 import beautifulsoup

soup = beautifulsoup(variable)

待续。。。

4.信息存储工具(待续)

5.代码编辑器(pycharm)

爬虫----初级概念的架构

原文:https://www.cnblogs.com/cittysteven/p/10421222.html

(0)
(0)
   
举报
评论 一句话评论(0
关于我们 - 联系我们 - 留言反馈 - 联系我们:wmxa8@hotmail.com
© 2014 bubuko.com 版权所有
打开技术之扣,分享程序人生!