首页 > 其他 > 详细

爬虫项目 (知识点)

时间:2017-08-26 21:04:39      阅读:301      评论:0      收藏:0      [点我收藏+]

一. 基本介绍

技术分享
什么是爬虫?
    - 就是抓取网页数据的程序

怎么抓取网页数据


网页三大特征:
    - 每个网页都有自己的URL (统一资源定位符) 来进行定位
    - 网页都是用HTML(超文本标记语言)来描述页面信息
    - 网页都使用HTTP/HTTPS(超文本传输协议)来传输HTML数据

爬虫的设计思路:
    -1. 首先确定需要爬取的网页URL地址
    -2. 通过HTTP/HTTPS协议来获取对应的HTML页面
    -3. 提取HTML页面里面有用的数据
        a. 如果是需要的数据,就保存起来。
        b. 如果是页面里的其它URL,那就继续执行第二步。

为什么选择Python做爬虫?
    - PHP   对多线程 异步支持不够好 并发处理很弱
    - Java  Python爬虫的最大对手,但是Java语言本身很笨重,代码量很大,重构成本比较高
    - C/C++ 运行效率几乎最强,但是学习成本很高,代码成型比较慢
    - Python 语言优美,代码简洁,开发效率高,支持的模块多,相关的HTTP请求模块和
             还有强大的爬虫Scrapy 以及成熟高效的scrapy-redis分布式策略
             而且 调用其他接口也非常方便(胶水语言)
View Code

 

爬虫项目 (知识点)

原文:http://www.cnblogs.com/oyoui/p/7436342.html

(0)
(0)
   
举报
评论 一句话评论(0
关于我们 - 联系我们 - 留言反馈 - 联系我们:wmxa8@hotmail.com
© 2014 bubuko.com 版权所有
打开技术之扣,分享程序人生!