python爬虫之腾讯新闻网主页信息爬取

时间：2021-05-02 16:49:41 阅读：45 评论：0 收藏：0 [点我收藏+]

在爬取这个网站的时候，如果直接用requests进行请求，得到的HTML并没有目标数据，所以我估计这不是静态网页，而是动态网页，于是就到XHR查看了一下，果真，那些数据是在如图所示的链接中：

技术分享图片

 1 import requests
 2 import json
 3 headers = {
 4     ‘User-Agent‘: ‘Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/64.0.3282.119 Safari/537.36‘,
 5     ‘Cookie‘: ‘pgv_info=ssid=s9071181272; ts_last=news.qq.com/; pgv_pvid=7613784555; ts_uid=465011805; ad_play_index=77; pac_uid=0_8ed4c1084a611‘,
 6 }
 7 url = ‘https://i.news.qq.com/trpc.qqnews_web.kv_srv.kv_srv_http_proxy/list?sub_srv_id=24hours&srv_id=pc&offset=0&limit=20&strategy=1&ext={%22pool%22:[%22top%22],%22is_filter%22:7,%22check_type%22:true}‘
 8 
 9 
10 news_dic = requests.get(url = url, headers = headers,data = data).json()[‘data‘][‘list‘]
11 # print(type(news_dic))
12 # print(news_dic)
13 
14 for new in news_dic:
15     print({‘标题‘:new[‘title‘],‘链接‘:new[‘url‘]})

python爬虫之腾讯新闻网主页信息爬取

原文：https://www.cnblogs.com/industrial-fd-2019/p/14725649.html

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年09月23日 (328)
2021年09月24日 (313)
2021年09月17日 (191)
2021年09月15日 (369)
2021年09月16日 (411)
2021年09月13日 (439)
2021年09月11日 (398)
2021年09月12日 (393)
2021年09月10日 (160)
2021年09月08日 (222)