下载BeautifulSoup包
# pip install bs4
下载lxml包
pip install lxml
# 1、首先导包
from bs4 import BeautifulSoup
# 2、实例化BeautifulSoup对象,数据加载到该对象中分为两种 :将本地的HTML文档数据加载到该对象中 / 将网络请求响应的页面源码加载到该对象中
# 将本地的HTML文档数据加载到该对象中
fp = open(‘./test.html‘, ‘r‘, encoding=‘utf-8‘)
soup = BeautifulSoup(fp, ‘lxml‘)
# 将网络请求响应的页面源码加载到该对象中
# page_text = response.text
# soup = BeatuifulSoup(page_text, ‘lxml‘)
soup.tagName
:返回文档中第一次出现的tagName
对应的标签名称soup.find()
:
soup.find_all()
:返回找到的所有结果,列表类型select
:
获取标签之间的文本数据
:
// test.html
<html lang="en">
<head>
<meta charset="UTF-8" />
<title>测试bs4</title>
</head>
<body>
<div>
<p>百里守约</p>
</div>
<div class="song">
<p>李清照</p>
<p>王安石</p>
<p>苏轼</p>
<p>柳宗元</p>
<a href="http://www.song.com" title="赵匡胤" target="_self">
<span>this is span</span>
宋朝是强大的王朝,不是军队的强大,而是经济很强大。
</a>
<a href="" class="du">总为浮云能蔽日,长安不见使人愁</a>
<img src="http://www.baidu.com/meiny.jpg" />
</div>
<div class="tang">
<ul>
<li><a href="http://www.baidu.com" title="qing">清明时节雨纷纷,路上行人欲断魂</a> </li>
<li><a href="http://www.163.com" title="qing">清明时节雨纷纷,路上行人欲断魂</a> </li>
<li><a href="http://www.126.com" title="qin">秦时明月汉时关,万里长征人未还</a> </li>
<li><a href="http://www.sina.com" title="qi">岐王宅里寻常见,崔九堂前几度闻</a> </li>
<li><a href="http://www.aaa.com" title="lu">杜甫</a> </li>
<li><b>leo</b> </li>
<li><i>风雨寒</i> </li>
<li><a href="http://www.baidu.com" title="feng">凤凰台上凤凰游,凤去台空江自流</a> </li>
</ul>
</div>
</body>
</html>
# 1、首先导包
from bs4 import BeautifulSoup
# 2、实例化BeautifulSoup对象,数据加载到该对象中分为两种 :将本地的HTML文档数据加载到该对象中 / 将网络请求响应的页面源码加载到该对象中
# 将本地的HTML文档数据加载到该对象中
fp = open(‘./test.html‘, ‘r‘, encoding=‘utf-8‘)
soup = BeautifulSoup(fp, ‘lxml‘)
# 3、常用方法示例
# print(soup)
print(soup.a) # soup.tagName 返回第一次出现的标签内容
print(soup.div)
print(soup.find(‘div‘))
print(soup.find(‘div‘,class_=‘song‘))
print(soup.select(‘.tang > ul > li > a‘)[0])
print(soup.select(‘.tang > ul > li > a‘)[0].text)
print(soup.select(‘.tang > ul > li > a‘)[0][‘href‘])
<a href="http://www.song.com" target="_self" title="赵匡胤">
<span>this is span</span>
宋朝是强大的王朝,不是军队的强大,而是经济很强大。
</a>
<div>
<p>百里守约</p>
</div>
<div>
<p>百里守约</p>
</div>
<div class="song">
<p>李清照</p>
<p>王安石</p>
<p>苏轼</p>
<p>柳宗元</p>
<a href="http://www.song.com" target="_self" title="赵匡胤">
<span>this is span</span>
宋朝是强大的王朝,不是军队的强大,而是经济很强大。
</a>
<a class="du" href="">总为浮云能蔽日,长安不见使人愁</a>
<img src="http://www.baidu.com/meiny.jpg"/>
</div>
<a href="http://www.baidu.com" title="qing">清明时节雨纷纷,路上行人欲断魂</a>
清明时节雨纷纷,路上行人欲断魂
http://www.baidu.com
原文:https://www.cnblogs.com/dai-zhe/p/14728986.html