HDF5适用于处理不适合在内存中存储地超大型数据,可以使你高效读写大型数据的一小块。
1.Pandas使用HDFStore类来实现这一功能,类似字典一样的工作方式
import numpy as np df = pd.DataFrame({‘a‘:np.random.randn(100)}) # 有100行 print(df.head()) # 看看前5行 print(‘*‘*20) store = pd.HDFStore(‘mydata.h5‘)# 生成HDF5文件 store[‘obj1‘] = df # 以类似字典的方式,向文件里写入内容 print(store) # 看看信息,在当前工作目录下,你可以找到这个文件 print(‘*‘*20) print(store[‘obj1‘]) #像字典那样索引数据: store.close() # 关闭文件
运行结果:
a 0 -0.864068 1 -0.210785 2 -1.442705 3 -0.012885 4 0.039723 ******************** <class ‘pandas.io.pytables.HDFStore‘> File path: mydata.h5 ******************** a 0 -0.864068 1 -0.210785 2 -1.442705 3 -0.012885 4 0.039723 .. ... 95 -1.621428 96 1.552766 97 0.013647 98 1.109935 99 0.048601 [100 rows x 1 columns]
2.HDFStore支持两种工作模式,‘fixed’和‘table’。table的速度更慢,但支持一种类似数据库SQL语言的查询操作
store.put(‘obj2‘,df,format=‘table‘) # put是赋值的显式版本,允许我们设置其它选项 store.select(‘obj2‘, where=[‘index >=10 and index <= 15‘]) # 类似SQl语言的查询操作,要注意空格的位置 a 10 -1.430696 11 -0.616732 12 -0.643991 13 -0.004270 14 0.797136 15 -0.175095 store.close() # 关闭文件
tips:类似字典的工作方式就是fixed,它不支持where等sql语句
3.快捷方式
df.to_hdf(‘mydata.h5‘,‘obj2‘,format=‘table‘) pd.read_hdf(‘mydata.h5‘,‘obj2‘,where=[‘index<5‘])
原文:https://www.cnblogs.com/lishanstudy/p/12846679.html