首页 > 编程语言 > 详细

python爬虫之腾讯新闻网主页信息爬取

时间:2021-05-02 16:49:41      阅读:35      评论:0      收藏:0      [点我收藏+]

在爬取这个网站的时候,如果直接用requests进行请求,得到的HTML并没有目标数据,所以我估计这不是静态网页,而是动态网页,于是就到XHR查看了一下,果真,那些数据是在如图所示的链接中:

技术分享图片

 

 

 1 import requests
 2 import json
 3 headers = {
 4     User-Agent: Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/64.0.3282.119 Safari/537.36,
 5     Cookie: pgv_info=ssid=s9071181272; ts_last=news.qq.com/; pgv_pvid=7613784555; ts_uid=465011805; ad_play_index=77; pac_uid=0_8ed4c1084a611,
 6 }
 7 url = https://i.news.qq.com/trpc.qqnews_web.kv_srv.kv_srv_http_proxy/list?sub_srv_id=24hours&srv_id=pc&offset=0&limit=20&strategy=1&ext={%22pool%22:[%22top%22],%22is_filter%22:7,%22check_type%22:true}
 8 
 9 
10 news_dic = requests.get(url = url, headers = headers,data = data).json()[data][list]
11 # print(type(news_dic))
12 # print(news_dic)
13 
14 for new in news_dic:
15     print({标题:new[title],链接:new[url]})

 

python爬虫之腾讯新闻网主页信息爬取

原文:https://www.cnblogs.com/industrial-fd-2019/p/14725649.html

(0)
(0)
   
举报
评论 一句话评论(0
关于我们 - 联系我们 - 留言反馈 - 联系我们:wmxa8@hotmail.com
© 2014 bubuko.com 版权所有
打开技术之扣,分享程序人生!