基于bs4库的HTML标签遍历方法

时间：2019-09-25 17:40:47 阅读：97 评论：0 收藏：0 [点我收藏+]

基于bs4库的HTML标签遍历方法

import requests
r=requests.get('http://python123.io/ws/demo.html')
demo=r.text

HTML基本格式

技术分享图片

HTML可以看做一棵标签树

遍历方法

! 技术分享图片

下行遍历

属性	说明
.contents	将该标签所有的儿子节点存入列表
.children	子节点的迭代类型，和contents类似，用于遍历儿子节点
.descendants	子孙节点的迭代类型，包含所有的子孙跌点，用于循环遍历

import requests
from bs4 import BeautifulSoup

r=requests.get('http://python123.io/ws/demo.html')
demo=r.text
soup=BeautifulSoup(demo,'html.parser')
print(soup.contents)# 获取整个标签树的儿子节点
print(soup.body.content)#返回标签树的body标签下的节点
print(soup.head)#返回head标签
print(len(soup.body.content))#输出body标签儿子节点的个数
print(soup.body.content[1])#获取body下第一个子标签

遍历子孙节点

import requests
from bs4 import BeautifulSoup

r=requests.get('http://python123.io/ws/demo.html')
demo=r.text
soup=BeautifulSoup(demo,'html.parser')

for child in soup.body.children:#遍历儿子节点
    print(child)
    

for child in soup.body.descendants:#遍历子孙节点
    print(child)

上行遍历

属性	说明
.parent	节点的父亲标签
.parents	节点的先辈标签的迭代类型，用于循环遍历先辈节点

import requests
from bs4 import BeautifulSoup

r=requests.get('http://python123.io/ws/demo.html')
demo=r.text
soup=BeautifulSoup(demo,'html.parser')
print(soup.title.parent)
print(soup.title.parent)
print(soup.parent)

import requests
from bs4 import BeautifulSoup

r=requests.get('http://python123.io/ws/demo.html')
demo=r.text
soup=BeautifulSoup(demo,'html.parser')

for parent in soup.a.parents:#遍历先辈的信息
    if parent is None:
        print(parent)
    else:
        print(parent.name)

平行遍历

属性	说明
.next_sibling	返回HTML文本顺序的下一个平行标签
.previous_sibling	返回HTML文本顺序的上一个平行标签
.next_siblings	迭代类型，返回HTML文本顺序后续所有的平行标签
.pervious_siblings	迭代类型，返回HTML文本顺序前面所有的平行标签

注意

标签树的平行遍历是有条件的
平行遍历发生在同一个父亲节点的各节点之间
标签中的内容也构成了节点

技术分享图片

import requests
from bs4 import BeautifulSoup

r=requests.get('http://python123.io/ws/demo.html')
demo=r.text
soup=BeautifulSoup(demo,'html.parser')

print(soup.a.next_sibling)#a标签的下一个标签
print(soup.a.next_sibling.next_sibling)#a标签的下一个标签的下一个标签
print(soup.a.previous_sibling)#a标签的前一个标签
print(soup.a.previous_sibling.previous_sibling)#a标签的前一个标签的前一个标签

平行遍历

import requests
from bs4 import BeautifulSoup

r=requests.get('http://python123.io/ws/demo.html')
demo=r.text
soup=BeautifulSoup(demo,'html.parser')


for sibling in soup.a.next_siblings:#遍历后续节点
    print(sibling)
    
    
for sibling in soup.a.previous_sibling:#遍历之前的节点
    print(sibling)

有层次感的输出-prettify()

import requests
from bs4 import BeautifulSoup

r=requests.get('http://python123.io/ws/demo.html')
demo=r.text
soup=BeautifulSoup(demo,'html.parser')
print(soup.prettify())

基于bs4库的HTML标签遍历方法

原文：https://www.cnblogs.com/mengxiaoleng/p/11585754.html

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年09月23日 (328)
2021年09月24日 (313)
2021年09月17日 (191)
2021年09月15日 (369)
2021年09月16日 (411)
2021年09月13日 (439)
2021年09月11日 (398)
2021年09月12日 (393)
2021年09月10日 (160)
2021年09月08日 (222)