首页 > 编程语言 > 详细

Python爬取股票数据,让你感受一下什么是一秒钟两千条数据

时间:2020-12-26 20:30:37      阅读:51      评论:0      收藏:0      [点我收藏+]

本文的文字及图片过滤网络,可以学习,交流使用,不具有任何商业用途,如有问题请及时联系我们以作处理。

以下文章来源于青灯编程,作者:清风

技术分享图片

 

 

Python GUI编程:高清电影在线观看平台制作,全网电影免费看

https://www.bilibili.com/video/BV1tz4y1o7Yc/

 

让你感受一下什么是一秒钟下载两千条数据。。

基本开发环境

  • Python 3.6
  • 皮查姆

相关模块的使用

import csv
import time
import requests
import concurrent.futures

 

 

目标网页分析

 

技术分享图片

 

一共214页的数据,每页数据20条,总计是4280。

 

:开发者工具,点击第二页,在XHR里面会出现数据。。

技术分享图片

 

技术分享图片

 

技术分享图片

 

这是链接的参数,其中的pn对应就是页码,选择的第二页所以pn:2

 

如果细心的话,可以发现返回的数据并非是一个json数据。

技术分享图片

 

这样的数据提取肯定是转换成json数据才好提取。这有两个方法:

 

方法一:

 

把参数中的< cb:jQuery1124036392017581464287_1608882113715 >去掉,不打算进去,就可以直接以response.json()的形式输出。

 

import requests


url = http://49.push2.eastmoney.com/api/qt/clist/get


params = {
    # ‘cb‘: ‘jQuery1124036392017581464287_1608882113715‘,
    pn: 2,
    pz: 20,
    po: 1,
    np: 1,
    ut: bd1d9ddb04089700cf9c27f6f7426281,
    fltt: 2,
    invt: 2,
    fid: f3,
    fs: m:0 t:6,m:0 t:13,m:0 t:80,m:1 t:2,m:1 t:23,
    fields: f1,f2,f3,f4,f5,f6,f7,f8,f9,f10,f12,f13,f14,f15,f16,f17,f18,f20,f21,f23,f24,f25,f22,f11,f62,f128,f136,f115,f152,
    _: 1608882115527,
}


headers = {
    User-Agent: Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/81.0.4044.138 Safari/537.36
}
response = requests.get(url=url, params=params, headers=headers)
html_data = response.json()
stock_data = html_data[data][diff]

 

 

方法二:

 

1,正常参数,请求网页返回数据response.txt

2,用正则匹配 jQuery1124036392017581464287_1608882113715(。*?) 匹配中间的数据

3,通过导入json模块,串联转json数据json.loads

import pprint
import re
import requests
import json
url = http://49.push2.eastmoney.com/api/qt/clist/get


params = {
    cb: jQuery1124036392017581464287_1608882113715,
    pn: 2,
    pz: 20,
    po: 1,
    np: 1,
    ut: bd1d9ddb04089700cf9c27f6f7426281,
    fltt: 2,
    invt: 2,
    fid: f3,
    fs: m:0 t:6,m:0 t:13,m:0 t:80,m:1 t:2,m:1 t:23,
    fields: f1,f2,f3,f4,f5,f6,f7,f8,f9,f10,f12,f13,f14,f15,f16,f17,f18,f20,f21,f23,f24,f25,f22,f11,f62,f128,f136,f115,f152,
    _: 1608882115527,
}


headers = {
    User-Agent: Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/81.0.4044.138 Safari/537.36
}
response = requests.get(url=url, params=params, headers=headers)
result = re.findall(jQuery1124036392017581464287_1608882113715\((.*?)\);, response.text)[0]
html_data = json.loads(result)
stock_data = html_data[data][diff]
pprint.pprint(stock_data)

 

 

对于这个网站,以上两种方法都是可以的,但是一般建议使用第二种方式,因为第一种方式毕竟是投机取巧。

技术分享图片

 

取值之后是一个列表的数据,通过用于循环遍历即可,获取每一支股票的相关数据了,通过键值对取值获取相对应的数据即可。

for i in stock_data:
    dit = {
        代码: i[f12],
        名称: i[f14],
        最新价: i[f2],
        涨跌幅: str(i[f3]) + %,
        涨跌额: i[f4],
        成交量(手): i[f5],
        成交额: i[f6],
        振幅: str(i[f7]) + %,
        最高: i[f15],
        最低: i[f16],
        今开: i[f17],
        昨收: i[f18],
        量比: i[f10],
        换手率: str(i[f8]) + %,
        市盈率(动态): i[f9],
        市净率: i[f23],
    }

 

保存数据通过csv模块保存就可以了。

 

使用多线程爬取速度有多快?

 

给五个线程时的速度:

if __name__ == __main__:
    start_time = time.time()
    executor = concurrent.futures.ThreadPoolExecutor(max_workers=5)
    for page in range(1, 215):
        url = fhttp://49.push2.eastmoney.com/api/qt/clist/get?pn={page}&pz=20&po=1&np=1&ut=bd1d9ddb04089700cf9c27f6f7426281&fltt=2&invt=2&fid=f3&fs=m:0+t:6,m:0+t:13,m:0+t:80,m:1+t:2,m:1+t:23&fields=f1,f2,f3,f4,f5,f6,f7,f8,f9,f10,f12,f13,f14,f15,f16,f17,f18,f20,f21,f23,f24,f25,f22,f11,f62,f128,f136,f115,f152&_=1608882114076
        executor.submit(main, url)
    executor.shutdown()

 

 

总耗时:3.685572624206543

总计数据:4279条数据

所以平均每秒钟爬取1161条数据。

技术分享图片

 

技术分享图片

 

当我给10个线程时的速度:

if __name__ == __main__:
    start_time = time.time()
    executor = concurrent.futures.ThreadPoolExecutor(max_workers=10)
    for page in range(1, 215):
        url = fhttp://49.push2.eastmoney.com/api/qt/clist/get?pn={page}&pz=20&po=1&np=1&ut=bd1d9ddb04089700cf9c27f6f7426281&fltt=2&invt=2&fid=f3&fs=m:0+t:6,m:0+t:13,m:0+t:80,m:1+t:2,m:1+t:23&fields=f1,f2,f3,f4,f5,f6,f7,f8,f9,f10,f12,f13,f14,f15,f16,f17,f18,f20,f21,f23,f24,f25,f22,f11,f62,f128,f136,f115,f152&_=1608882114076
        executor.submit(main, url)
    executor.shutdown()

 

 

总耗时:1.7553794384002686

总计数据:4279条数据

所以平均每秒钟爬取2437条数据。

技术分享图片

 

技术分享图片

 

当我给20个线程时的速度:

给不了,电脑顶不住。

Python爬取股票数据,让你感受一下什么是一秒钟两千条数据

原文:https://www.cnblogs.com/hhh188764/p/14193818.html

(0)
(0)
   
举报
评论 一句话评论(0
关于我们 - 联系我们 - 留言反馈 - 联系我们:wmxa8@hotmail.com
© 2014 bubuko.com 版权所有
打开技术之扣,分享程序人生!