爬虫三之beautifulsoup

时间：2019-07-12 20:57:21 阅读：86 评论：0 收藏：0 [点我收藏+]

基本使用

from bs4 import BeautifulSoup

soup = BeautifulSoup(html#,'lxml','xml','html5lib')
soup.prettify()#补全网页格式
soup.title.string#title里的内容

标签选择器

就是相当于soup的属性，soup.Tag
有多个，只返回第一个

获取名称

在标签后加 .name

获取属性

soup.p.attrs['name']
soup.p['name']

子节点

soup.Tag.contents
子节点以列表形式返回

soup.Tag.children
迭代器，需要循环才能输出

子孙节点

soup.Tag.descendants
同样为迭代器

父节点和祖先节点

父节点
soup.Tag.parent
祖先节点
soup.Tag.parents

兄弟节点

soup.Tag.next_siblings
soup.Tag.previous_siblings

处理方式很快，但用途有限

标准选择器

find_all(name, attrs, recursive, text, kwargs)**

name

find_all(‘...‘)

attrs:

find_all(id='...')
find_all(class_='...')

text也可以用上述方法，text=‘...‘
find 返回单个元素

常用命令

find_parent()
find_parents()

find_next_sibling()
find_next_siblings()

find_previous_siblings()

find_all_next()
find_next()
#返回节点后符合条件的节点

find_all_previous()

CSS选择器

通过select()直接传入，即可完成选择

选择class时输入‘‘ .class1 .class2"
选择Tag时直接传入即可
选择id时输入 "#id"

获取内容get_text()

爬虫三之beautifulsoup

原文：https://www.cnblogs.com/guiguiguoguo/p/11177866.html

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年09月23日 (328)
2021年09月24日 (313)
2021年09月17日 (191)
2021年09月15日 (369)
2021年09月16日 (411)
2021年09月13日 (439)
2021年09月11日 (398)
2021年09月12日 (393)
2021年09月10日 (160)
2021年09月08日 (222)