首页 > 编程语言 > 详细

Python网络爬虫与信息提取(二)(BeautifulSoup库)

时间:2019-07-12 16:11:48      阅读:81      评论:0      收藏:0      [点我收藏+]

BeautifulSoup库是解析、遍历、维护.html或.xml的功能库

①BeautifulSoup库的安装:

在cmd命令行中输入: pip install beautifulsoup4即可

②BeautifulSoup库的引用:

from bs4 import BeautifulSoup

BeautifulSoup库,也叫beautifulsoup4或bs4

③检测Beautiful Soup库是否安装成功以及使用BeautifulSoup库对网页进行解析:

技术分享图片

整个解析过程的主要代码:

from bf4 import BeautifulSoup
soup=BeautifulSoup(<p>data</p>,html.parser)

④BeautifulSoup库的四种解析器:

技术分享图片

⑤BeautifulSoup类的基本元素及相应用法:

技术分享图片

在DOS命令下:

C:\Users\Administrator\python

技术分享图片

>>>import requests

>>>r=requests.get(“http://python123.io/ws/demo.html”)

>>>r.text

技术分享图片

>>>demo=r.text

>>>from bs4 import BeautifulSoup

>>>soup=BeautifulSoup(demo,”html.parser”)

>>>print(soup.prettify())

技术分享图片

>>>soup.title

技术分享图片

>>>tag=soup.a

>>>tag

技术分享图片

技术分享图片

Comment的用法:

技术分享图片

⑥基于bs4库的HTML内容遍历方法

技术分享图片

标签树的下行遍历:

技术分享图片

 

遍历儿子节点 ==>  for child in soup.body.children:

       print(child)

遍历子孙节点 ==>  for child in soup.body.children:

        print(child)

技术分享图片

标签树的上行遍历:

属性  .parent      说明    节点的父类标签

属性  .parents    说明     节点先辈标签的迭代类型,用于循环遍历先辈节点

标签树的平行遍历:

技术分享图片

平行遍历发生在同一个父节点下的各节点间

1)遍历后续节点

for sibling in soup.a.next_siblings:

      print(sibling)

2)遍历前续节点

for sibling in soup.a.previous_siblings:

      print(sibling)

Python网络爬虫与信息提取(二)(BeautifulSoup库)

原文:https://www.cnblogs.com/jianqiao123/p/11176124.html

(0)
(0)
   
举报
评论 一句话评论(0
关于我们 - 联系我们 - 留言反馈 - 联系我们:wmxa8@hotmail.com
© 2014 bubuko.com 版权所有
打开技术之扣,分享程序人生!