首页 > 其他 > 详细

Pandas_HDF5

时间:2020-05-07 23:52:20      阅读:112      评论:0      收藏:0      [点我收藏+]

HDF5适用于处理不适合在内存中存储地超大型数据,可以使你高效读写大型数据的一小块。

1.Pandas使用HDFStore类来实现这一功能,类似字典一样的工作方式

import numpy as np
df = pd.DataFrame({a:np.random.randn(100)})  # 有100行

print(df.head()) # 看看前5行
print(**20)

store = pd.HDFStore(mydata.h5)# 生成HDF5文件
store[obj1] = df  # 以类似字典的方式,向文件里写入内容
print(store)  # 看看信息,在当前工作目录下,你可以找到这个文件
print(**20)

print(store[obj1]) #像字典那样索引数据:
store.close() # 关闭文件

运行结果:

          a
0 -0.864068
1 -0.210785
2 -1.442705
3 -0.012885
4  0.039723
********************
<class pandas.io.pytables.HDFStore>
File path: mydata.h5

********************
           a
0  -0.864068
1  -0.210785
2  -1.442705
3  -0.012885
4   0.039723
..       ...
95 -1.621428
96  1.552766
97  0.013647
98  1.109935
99  0.048601

[100 rows x 1 columns]

 

2.HDFStore支持两种工作模式,‘fixed’和‘table’。table的速度更慢,但支持一种类似数据库SQL语言的查询操作

 

store.put(obj2,df,format=table) # put是赋值的显式版本,允许我们设置其它选项

store.select(obj2, where=[index >=10 and index <= 15])  # 类似SQl语言的查询操作,要注意空格的位置

           a
10 -1.430696
11 -0.616732
12 -0.643991
13 -0.004270
14  0.797136
15 -0.175095

store.close() # 关闭文件

tips:类似字典的工作方式就是fixed,它不支持where等sql语句

3.快捷方式

df.to_hdf(mydata.h5,obj2,format=table)

pd.read_hdf(mydata.h5,obj2,where=[index<5])

 

Pandas_HDF5

原文:https://www.cnblogs.com/lishanstudy/p/12846679.html

(0)
(0)
   
举报
评论 一句话评论(0
关于我们 - 联系我们 - 留言反馈 - 联系我们:wmxa8@hotmail.com
© 2014 bubuko.com 版权所有
打开技术之扣,分享程序人生!