Python学习笔记第27天

时间：2020-05-07 00:23:25 阅读：60 评论：0 收藏：0 [点我收藏+]

谏言：穷则独善其身，达则兼济天下

爬取笑话网分页数据

# 请求第三方库
import requests

# 数据第三方库
from pyquery import PyQuery as pq

def XiaoHua(page):
    url=‘http://xiaohua.zol.com.cn/youmo/‘

    # 请求首页数据
    # text返回格式为文本
    response=requests.get(url).text

    # 数据提取
    # 初始化
    doc=pq(response)
    # .article-summary 这个是类选择器获取数据
    # .item返回查询集

    # data = doc(‘.article-commentbar.articleCommentbar.clearfix a‘).items()
    data = doc(‘.article-title a‘).items()

    #循环 遍历
    for i in data:
        # 通过属性获取数据
        # print(i.attr(‘href‘))
        forms=i.attr(‘href‘)

        #提取到详情页面的后缀进行拼接
        # urls = ‘http://xiaohua.zo1.com.cn‘ + ‘ 数据提取出来的后缀
        urls = ‘http://xiaohua.zol.com.cn‘ + forms
        print(urls)

        # 请求详情页页面请求
        datails_page=requests.get(urls).text
        # 详情页数据提取
        details_doc=pq(datails_page)

        # .通过类型类选取来获取数据
        # text()去除标签变成文本数据数据提取
        article_text = details_doc(‘.article-text‘).text()
        print(article_text)

page=int(input(‘请输入你要抓取的页数：‘))
for i in range(1,page):
    XiaoHua(i)

技术分享图片

.......

Python学习笔记第27天

原文：https://www.cnblogs.com/python-study-notebook/p/12840076.html

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年09月23日 (328)
2021年09月24日 (313)
2021年09月17日 (191)
2021年09月15日 (369)
2021年09月16日 (411)
2021年09月13日 (439)
2021年09月11日 (398)
2021年09月12日 (393)
2021年09月10日 (160)
2021年09月08日 (222)