首页 > 编程语言 > 详细

python爬虫3--urllib请求库之parse模块

时间:2020-01-03 09:43:48      阅读:90      评论:0      收藏:0      [点我收藏+]

parse定义了处理URL的标准接口,实现URL的拆分,合并以及转换。

1.urlparse() url拆分

urlparse(urlstring,scheme=‘’,allow_ragments=True)

  • scheme:默认协议,如果url不带协议的时候生效;
  • allow_fragments:是否忽略fragment,如果忽略,会被解析成path,params或query的一部分。

将url拆分为6部分:

  • scheme:协议;
  • netloc:域名;
  • path:访问路径;
  • params:参数;
  • query:查询条件;
  • fragment:锚点

结果为元组,可用参数或索引取值。

代码:

技术分享图片

运行结果:

 

 技术分享图片

 

 

 2.urlunparse() url合并

urlunparse([scheme,netloc,path,params,query,frament])

  • 接受的参数为可迭代对象;
  • 个数必须为6个,否则报错

代码:

技术分享图片

 

运行结果:

 

 技术分享图片

 

3.urlsplit()

 

 和urlparse()相似,只是不再单独拆分params部分,将params合并到path中

4.urlunsplit()

和urlunparse()相似,唯一区别传入参数为5个

5.urljoin()

base_url作为第一个参数,新连接作为第二个参数,该方法会分析base_url中的scheme,netloc,path三部分内容,并对新链接确实的部分予以补充。

如果新链接中有这三部分,怎用新链接的,没有则用base_url中的。

而base_url中params,query,fragment不起作用。

6.urlencode()

在构造请求参数时非常有用,将字典类型的参数,序列化为url可用的参数。

7.parse_qs()

 与urlencode()相反,把url参数反序列化为字典。

8.parse_qsl()

将url参数转化为元组组成的列表,运行结果为列表,列表的每一个元素为元组。

9.quote()

将url中中文参数转化为url编码的格式,避免因中文参数导致乱码。

10.unquote()

和quote()相反

 

python爬虫3--urllib请求库之parse模块

原文:https://www.cnblogs.com/rong1111/p/12143001.html

(0)
(0)
   
举报
评论 一句话评论(0
关于我们 - 联系我们 - 留言反馈 - 联系我们:wmxa8@hotmail.com
© 2014 bubuko.com 版权所有
打开技术之扣,分享程序人生!