Python3---爬虫---抓取百度贴吧

时间：2019-12-20 14:40:28 阅读：88 评论：0 收藏：0 [点我收藏+]

前言

该文章主要描述如何抓取百度贴吧内容。当然是简单爬虫实现功能，没有实现输入参数过滤等辅助功能，仅供小白学习。

修改时间：20191219

天象独行

import os,urllib.request,urllib.parse

‘‘‘
    测试要求：
        1；输入吧名，首页，结束页进行爬虫。
        2；创建一个以吧名为名字的文件夹，里面是每一页的html的内容，文件名格式：吧名_page.html
‘‘‘
url = "https://tieba.baidu.com/f?"

ba_name = input("请输入需要下载的吧名： ")
home_page = int(input("请输入首页："))
end_page = int(input("请输入结束页："))
#创建一个路径变量：
path = "C:\\Users\\aaron\\Documents\\Python3-test"
os.makedirs(path)
‘‘‘
    pn = 0  第一页
    pn = 50 第二页
    pn = 100 第三页
    。。。。
    pn = (n-1)*50 第n页
‘‘‘
for page in range(home_page,end_page+1):
    #构造请求参数字典
    data = {
        "kw":ba_name,
        "ie":"urt-8",
        "pn":(page-1)*50
    }
    #构造请求hearders头
    #构造请求参数
    url_get = urllib.parse.urlencode(data)
    #构造请求url
    url_get = url + url_get
    #请求url
    request = urllib.request.urlopen(url_get)
    #创建一个文件名
    filename = ba_name + ‘_‘ + str(page) + ‘.html‘
    #拼接文件路径
    filepath = path + ‘\\‘ + filename
    print(filepath)
    #写入内容
    with open(filepath,‘wb‘) as fp:
        fp.write(request.read())

执行结果：

技术分享图片

Python3---爬虫---抓取百度贴吧

原文：https://www.cnblogs.com/aaron456-rgv/p/12072797.html

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年09月23日 (328)
2021年09月24日 (313)
2021年09月17日 (191)
2021年09月15日 (369)
2021年09月16日 (411)
2021年09月13日 (439)
2021年09月11日 (398)
2021年09月12日 (393)
2021年09月10日 (160)
2021年09月08日 (222)