爬虫项目 (知识点)

时间：2017-08-26 21:04:39 阅读：302 评论：0 收藏：0 [点我收藏+]

一. 基本介绍

什么是爬虫？
    - 就是抓取网页数据的程序

怎么抓取网页数据


网页三大特征:
    - 每个网页都有自己的URL (统一资源定位符) 来进行定位
    - 网页都是用HTML(超文本标记语言)来描述页面信息
    - 网页都使用HTTP/HTTPS(超文本传输协议)来传输HTML数据

爬虫的设计思路:
    -1. 首先确定需要爬取的网页URL地址
    -2. 通过HTTP/HTTPS协议来获取对应的HTML页面
    -3. 提取HTML页面里面有用的数据
        a. 如果是需要的数据,就保存起来。
        b. 如果是页面里的其它URL,那就继续执行第二步。

为什么选择Python做爬虫？
    - PHP   对多线程 异步支持不够好 并发处理很弱
    - Java  Python爬虫的最大对手,但是Java语言本身很笨重,代码量很大,重构成本比较高
    - C/C++ 运行效率几乎最强,但是学习成本很高,代码成型比较慢
    - Python 语言优美,代码简洁,开发效率高,支持的模块多,相关的HTTP请求模块和
             还有强大的爬虫Scrapy 以及成熟高效的scrapy-redis分布式策略
             而且 调用其他接口也非常方便(胶水语言)

View Code

爬虫项目 (知识点)

原文：http://www.cnblogs.com/oyoui/p/7436342.html

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年09月23日 (328)
2021年09月24日 (313)
2021年09月17日 (191)
2021年09月15日 (369)
2021年09月16日 (411)
2021年09月13日 (439)
2021年09月11日 (398)
2021年09月12日 (393)
2021年09月10日 (160)
2021年09月08日 (222)