首页 > 编程语言 > 详细

Python学习笔记第27天

时间:2020-05-07 00:23:25      阅读:60      评论:0      收藏:0      [点我收藏+]

谏言:穷则独善其身,达则兼济天下

爬取笑话网分页数据

# 请求第三方库
import requests

# 数据第三方库
from pyquery import PyQuery as pq

def XiaoHua(page):
    url=http://xiaohua.zol.com.cn/youmo/

    # 请求首页数据
    # text返回格式为文本
    response=requests.get(url).text

    # 数据提取
    # 初始化
    doc=pq(response)
    # .article-summary 这个是类选择器获取数据
    # .item返回查询集

    # data = doc(‘.article-commentbar.articleCommentbar.clearfix a‘).items()
    data = doc(.article-title a).items()

    #循环 遍历
    for i in data:
        # 通过属性获取数据
        # print(i.attr(‘href‘))
        forms=i.attr(href)

        #提取到详情页面的后缀进行拼接
        # urls = ‘http://xiaohua.zo1.com.cn‘ + ‘ 数据提取出来的后缀
        urls = http://xiaohua.zol.com.cn + forms
        print(urls)

        # 请求详情页页面请求
        datails_page=requests.get(urls).text
        # 详情页数据提取
        details_doc=pq(datails_page)

        # .通过类型类选取来获取数据
        # text()去除标签变成文本数据数据提取
        article_text = details_doc(.article-text).text()
        print(article_text)

page=int(input(请输入你要抓取的页数:))
for i in range(1,page):
    XiaoHua(i)

技术分享图片

 

.......

 

Python学习笔记第27天

原文:https://www.cnblogs.com/python-study-notebook/p/12840076.html

(0)
(0)
   
举报
评论 一句话评论(0
关于我们 - 联系我们 - 留言反馈 - 联系我们:wmxa8@hotmail.com
© 2014 bubuko.com 版权所有
打开技术之扣,分享程序人生!