首页 > 编程语言 > 详细

python爬虫基础

时间:2019-05-02 23:39:03      阅读:216      评论:0      收藏:0      [点我收藏+]

转载 https://cuiqingcai.com/5052.html

2 爬虫 需要了解一些基础知识,如HTTP原理、网页的基础知识、爬虫的基本原理、Cookies的基本原理等

2.1 HTTP基本原理

  URI和URL,URI的全称为Uniform Resource Identifier,即统一资源标志符,URL的全称为Universal Resource Locator,即统一资源定位符

  URL是URI的子集,也就是说每个URL都是URI,但不是每个URI都是URL。那么,怎样的URI不是URL呢?URI还包括一个子类叫作URN,它的全称为Universal Resource Name,即统一资源名称。URN只命名资源而不指定如何定位资源,比如urn:isbn:0451450523指定了一本书的ISBN,可以唯一标识这本书,但是没有指定到哪里定位这本书,这就是URN

  超文本;文本,其英文名称叫作hypertext,我们在浏览器里看到的网页就是超文本解析而成的,其网页源代码是一系列HTML代码,里面包含了一系列标签,比如img显示图片,p指定显示段落,而网页的源代码HTML就可以称作超文本

  https,http;在爬虫中,我们抓取的页面通常就是http或https

python爬虫基础

原文:https://www.cnblogs.com/x2x3/p/10803595.html

(0)
(0)
   
举报
评论 一句话评论(0
关于我们 - 联系我们 - 留言反馈 - 联系我们:wmxa8@hotmail.com
© 2014 bubuko.com 版权所有
打开技术之扣,分享程序人生!