首页 > 编程语言 > 详细

python 多进程并发demo

时间:2019-12-09 15:57:19      阅读:103      评论:0      收藏:0      [点我收藏+]

outline

下午需要简单处理一份数据,就直接随手写脚本处理了,但发现效率太低,速度太慢,就改成多进程了;

程序涉及计算、文件读写,鉴于计算内容挺多的,就用多进程了(计算密集)。

代码

import pandas as pd
from pathlib import Path
from concurrent.futures import ProcessPoolExecutor

parse_path = /data1/v-gazh/CRSP/dsf_full_fields/parse
source_path = /data1/v-gazh/CRSP/dsf_full_fields/2th_split‘  # 目录中有3.3W个csv文件,串行的话,效率大打折扣


def parseData():
    source_path_list = list(Path(source_path).glob(*.csv))
    multi_process = ProcessPoolExecutor(max_workers=20)
    multi_results = multi_process.map(func, source_path_list)


def func(p):
    source_p = str(p)
    parse_p = str(p).replace(2th_split, parse)
    df = pd.read_csv(source_p)
    df[date] = pd.to_datetime(df[date].astype(str)).dt.date
    df.sort_values([date], inplace=True)
    # 处理close为负的值(abs),添加status标识
    df[is_close] = df[PRC].map(lambda x: 0 if x < 0 or pd.isna(x) else 1)
    df[PRC] = df[PRC].abs()
    df.rename(columns={CFACPR: factor}, inplace=True)
    df[adj_low] = df[BIDLO] * df[factor]
    df[adj_high] = df[ASKHI] * df[factor]
    df[adj_close] = df[PRC] * df[factor]
    df[adj_open] = df[OPENPRC] * df[factor]
    df[adj_volume] = df[VOL] / df[factor]
    # calc change
    df[change] = df[adj_close].diff(1) / df[adj_close].shift(1)
    # tt = pd.DataFrame({‘A‘: [1, 2, 3, 4, 6], ‘B‘: [4, 5, 6, 8, 1]})
    df.to_csv(parse_p, index=False)


parseData()

 

python 多进程并发demo

原文:https://www.cnblogs.com/bigtreei/p/12011435.html

(0)
(0)
   
举报
评论 一句话评论(0
关于我们 - 联系我们 - 留言反馈 - 联系我们:wmxa8@hotmail.com
© 2014 bubuko.com 版权所有
打开技术之扣,分享程序人生!