谏言:穷则独善其身,达则兼济天下
爬取笑话网分页数据
# 请求第三方库
import requests
# 数据第三方库
from pyquery import PyQuery as pq
def XiaoHua(page):
url=‘http://xiaohua.zol.com.cn/youmo/‘
# 请求首页数据
# text返回格式为文本
response=requests.get(url).text
# 数据提取
# 初始化
doc=pq(response)
# .article-summary 这个是类选择器获取数据
# .item返回查询集
# data = doc(‘.article-commentbar.articleCommentbar.clearfix a‘).items()
data = doc(‘.article-title a‘).items()
#循环 遍历
for i in data:
# 通过属性获取数据
# print(i.attr(‘href‘))
forms=i.attr(‘href‘)
#提取到详情页面的后缀进行拼接
# urls = ‘http://xiaohua.zo1.com.cn‘ + ‘ 数据提取出来的后缀
urls = ‘http://xiaohua.zol.com.cn‘ + forms
print(urls)
# 请求详情页页面请求
datails_page=requests.get(urls).text
# 详情页数据提取
details_doc=pq(datails_page)
# .通过类型类选取来获取数据
# text()去除标签变成文本数据数据提取
article_text = details_doc(‘.article-text‘).text()
print(article_text)
page=int(input(‘请输入你要抓取的页数:‘))
for i in range(1,page):
XiaoHua(i)
.......
原文:https://www.cnblogs.com/python-study-notebook/p/12840076.html