首页 > 其他 > 详细

Beautiful Soup库基本元素

时间:2019-11-19 17:40:57      阅读:83      评论:0      收藏:0      [点我收藏+]

+-----------------------------------------+---------------------------------------------------------------------------------------------------------

|  Tag              +  标签,最基本的信息组织单元,分别用<>和</>标明开头和结尾        |

|  Name           +    标签的名字,<P>...........</p>的名字是‘p’,     格式:<tag>.name       |

|  Attributes          +  标签的属性,字典形式组织,格式:,<tag>.attrs              |

|  NavigableString      +  标签内非属性字符串,<>......</>中字符串,格式:<tag>.string        |

|  Comment         +  标签内字符串的注释部分,一种特殊的Comment类型            |

+-----------------------------------------+---------------------------------------------------------------------------------------------------------

from bs4 import BeautifulSoup
import requests
r = requests.get(https://python123.io/ws/demo.html)
demo = r.text
soup = BeautifulSoup(demo,html.parser)
print(soup.title)
tag = soup.a
print(tag)


#获取标签的名字    name
print(soup.a.parent.parent.name)

#标签的属性信息     attrs
print(tag.attrs[class])
print(tag.attrs[href])
print(type(tag))

#获取标签内的字符串
print(soup.p)
print(soup.p.string)
print(type(soup.p.string))

# 对html注释的处理,当打印type时结果为comment时为有字符串
newsoup = BeautifulSoup("<b><!--This is a comment--></b><p>This is not a comment<p>" ,html.parser)
print(newsoup.b.string)
print(type(newsoup.b.string))
print(type(newsoup.p.string))

 

Beautiful Soup库基本元素

原文:https://www.cnblogs.com/nannong923484082/p/11890612.html

(0)
(0)
   
举报
评论 一句话评论(0
关于我们 - 联系我们 - 留言反馈 - 联系我们:wmxa8@hotmail.com
© 2014 bubuko.com 版权所有
打开技术之扣,分享程序人生!