首页 > 编程语言 > 详细

抓包分析、多线程爬虫及xpath学习

时间：2019-04-27 23:59:41 阅读：325 评论：0 收藏：0 [点我收藏+]

1、抓包分析

1.1 Fiddler安装及基本操作

　　由于很多网站采用的是HTTPS协议，而fiddler默认不支持HTTPS，先通过设置使fiddler能抓取HTTPS网站，过程可参考（https://www.cnblogs.com/liulinghua90/p/9109282.html）。使用clear可以将当前fiddler清屏。

1.2 通过抓包爬取腾讯视频评论

　　unicode转码：在Python中转码可以直接输入u‘需要转码的内容‘

　　由于每个视频后面的评论需要自动加载，在源代码中未发现有关评论的相关链接，此时就需要使用fiddler进行抓包分析，打开视频网站后，可以先使用clear清屏，找到JS包，可以复制它的url，打开后发现评论都是使用的Unicode编码，此时就需要解码。由于需要自动加载后面的评论，此时需要分析网页的构成。再使用一次clear，在网页上点击加载更多评论，在fiddler中找到JS包，复制url，将之与之前的url进行对比，重复几次该操作，构造评论url。

　　下面给出爬取腾讯视频中权力的游戏第八季评论：

技术分享图片

1.3 微信文章爬取

　　进入weixin.sougou.com，搜索关键词为“Python”，也采取抓包分析，不过增加了代理，其余操作步骤与1.2类似。

技术分享图片

　

2、多线程爬虫

　　多线程，即程序中的某些程序段并行执行，合理地设置多线程，可以让爬虫的效率更高。

技术分享图片

　　运行之后的结果为：

技术分享图片

　　可以看出两个线程是同时开始工作的，那么如果用多线程爬取多个网页的话，就可以更加高效。下面将用多线程爬取糗事百科的文字内容：

技术分享图片

　　首先需要分析网页的构造，通过翻页将规律找出来，实现在程序中实现自动翻页加载文本，其次需要将内容解码输出，最后需要加上异常处理。

3、scrapy xpath

　　/标签名：从顶端开始，如/html从顶端开始寻找html这个标签，找到的是这个标签内的内容

　　//标签名：寻找所有该标签

　　text()：提取文本信息

　　@属性：提取属性信息

　　

　　命令行输入：scrapy startproject 爬虫名，表示新建一个爬虫；如果新建一个自动爬虫，则先输入：scrapy startproject 爬虫名，再输入：scrapy genspider -t crawl 爬虫名网址

　　items.py主要用来设置爬取的目标

　　pipelines.py设置后续的处理

　　settings.py主要用于配置信息

　

　　

　　

抓包分析、多线程爬虫及xpath学习

原文：https://www.cnblogs.com/whliscoming/p/10780032.html

踩

(0)

赞

(0)

举报

评论一句话评论（0）

分享档案

更多>

2021年09月23日 (328)
2021年09月24日 (313)
2021年09月17日 (191)
2021年09月15日 (369)
2021年09月16日 (411)
2021年09月13日 (439)
2021年09月11日 (398)
2021年09月12日 (393)
2021年09月10日 (160)
2021年09月08日 (222)

最新文章

更多>

教程昨日排行

更多>

友情链接

汇智网 PHP教程插件网

关于我们 - 联系我们 - 留言反馈 - 联系我们:wmxa8@hotmail.com

© 2014 bubuko.com 版权所有

打开技术之扣，分享程序人生！