首页 > 其他 > 详细

剑来小说爬取

时间:2019-12-19 15:50:44      阅读:80      评论:0      收藏:0      [点我收藏+]

一:爬虫网站分析

爬取网站:https://doupocangqiong1.com/148/1.html

1.首先我看查看网页源代码,发现里面并没有小说内容,只有标题

 

 

 

 技术分享图片

 

2.然后我按f12,点network进行查看 ,在图下·找到了里面的内容,这个就是Ajax来加载显示的

技术分享图片

 

 3.刷新看看参数,每变一页就在原来的数字上+1,这样我就找到了翻页的办法

技术分享图片

 

 4.下面我就直接按照分析析代码

import requests
from lxml import etree
import os
import re

def bc_url(tltle,req1):
# 保存小说
filename=‘D:/小说/‘
if not os.path.exists(filename):
os.mkdir(filename)
with open(filename+tltle+".txt",‘a‘,encoding="UTF-8")as f:
f.write(req1)
f.close()

def get_url():
url1=‘https://doupocangqiong1.com/novelsearch/chapter/transcode.html‘
# 构建翻页请求
for i in range(1,883):
url=‘https://doupocangqiong1.com/148/‘+str(i)+‘.html‘
headers={
‘Cookie‘: ‘__guid=99673995.150984782037069900.1576402368997.2383; Hm_lvt_e331ad8aeb2484e93d26fbc8a8f7c7e9=1576402370; Hm_lpvt_e331ad8aeb2484e93d26fbc8a8f7c7e9=1576402495; monitor_count=7‘,
‘Host‘: ‘doupocangqiong1.com‘,
‘Origin‘: ‘https://doupocangqiong1.com‘,
‘Referer‘: ‘https://doupocangqiong1.com/148/4.html‘,
‘User-Agent‘: ‘Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36‘,
}
data={
‘siteid‘: ‘0‘,
‘bid‘: ‘148‘,
‘cid‘: str(885153+i),

}
try:
req=requests.get(url)
req.encoding=req.apparent_encoding
html=etree.HTML(req.text)
title=html.xpath(‘//div[@class="title"]/h1/a/@title‘)[0]
title=re.sub(r‘[* 《》?!@,.?。,]‘,‘‘,title)#去除标题里面的特殊字符
req1=requests.post(url1,data=data,headers=headers).json()[‘info‘]
req1=re.sub(‘<br>‘,‘‘,req1)
print(‘正在爬取‘+title)
except:
print(‘请求失败‘)
bc_url(title,req1)



if __name__ == ‘__main__‘:
get_url()


代码仅供参考,有什么建议的评论区留言

  

剑来小说爬取

原文:https://www.cnblogs.com/anpei/p/12067841.html

(0)
(0)
   
举报
评论 一句话评论(0
关于我们 - 联系我们 - 留言反馈 - 联系我们:wmxa8@hotmail.com
© 2014 bubuko.com 版权所有
打开技术之扣,分享程序人生!