首页 > 其他 > 详细

爬取今日头条收藏夹文章列表信息

时间:2018-02-14 11:38:34      阅读:76      评论:0      收藏:0      [点我收藏+]

标签:学习   rep   数据   一个   mar   exc   头条   变量   考试   

从了解Python到决定做这个项目,从临近期末考试到放假在家,利用零碎的时间持续了一个月吧。完成这个项目我用了三个阶段

段一:

了解Python,开始学习Python的基本语法,观看相关爬虫视频,了解到爬取网页信息的简单措施

阶段二:

开始着手分析头条收藏夹页面。

头条收藏夹地址格式:

技术分享图片

地址中有三个变量参数,as,cp,max_repin_time,as,cp在页面内可以找到源码,是基于对当前时间戳加密得到的,max_repin_time是指向下一页面URL的关键值,从页面数据列的最后一项中获取

技术分享图片

阶段三:爬取收藏夹内所有文章的分类,标题,作者,发布时间,源地址,并存入EXCEL文件中

获取AS,CP参数

技术分享图片

将时间戳转当地时间

技术分享图片

使用代理

技术分享图片

主文件

技术分享图片

成功输出文件技术分享图片

2018年2月7日 22:58


爬取今日头条收藏夹文章列表信息

标签:学习   rep   数据   一个   mar   exc   头条   变量   考试   

原文:http://blog.51cto.com/4556635/2071632

(0)
(0)
   
举报
评论 一句话评论(0
0条  
登录后才能评论!
© 2014 bubuko.com 版权所有 鲁ICP备09046678号-4
打开技术之扣,分享程序人生!
             

鲁公网安备 37021202000002号