数据的读取与存储

时间：2019-10-28 16:16:31 阅读：92 评论：0 收藏：0 [点我收藏+]

CSV文件的读取

pandas库提供了将表格型数据读取为DataFrame数据结构的函数

文本解析函数：

read_csv 从文件中加载带分隔符的数据，默认分隔符为逗号

read_table 从文件中加载带分隔符的数据，默认分隔符为制表符

写入csv文件

技术分享图片

使用read_csv读取csv文件

技术分享图片

使用read_table读取csv文件

技术分享图片

指定列作为索引

一级列索引

默认情况下。读取的DataFrame的行索引是从0开始计数。但是可以自由指定列为行索引。例如：通过index_col参数指定id列为行索引。

技术分享图片

多级列索引

数据源：

技术分享图片

层次化处理：

技术分享图片

标题行设置

如果默认情况下没有标题行，则会指定第一行为标题行，这是不符合实际情况的：

技术分享图片

直接读取无标题数据

技术分享图片

通过header参数分配默认的标题行

技术分享图片

通过names参数指定列名

技术分享图片

自定义读取

跳过指定的行 skiprows()

技术分享图片

通过nrows参数，可以选择只读取部分参数

可通过usecols参数进行部分列的选取

使用info()函数查看详细信息

使用chunksize参数，可逐步读取文件,通过迭代可以给指定列进行计数

read_csv的参数列表

path 　　　　文件的路径

sep 　　　　字段隔开的字符序列，也可以使用正则表达式

header 　　　　指定列索引。默认为0(第1行)

index_col 　　用于行索引的列名或列编号

names 　　　　指定列索引的列名

skiprows 　　　需要忽略的行数(从文件开始处算)

nrows 　　　　需要读取的行数(从文件开始处算)

chunksize 文件块的大小

usecols 指定读取的列

TXT文件的读取

通过read_table函数中的sep参数进行行分隔符的指定

技术分享图片

使用正则表达式处理分隔符的问题

技术分享图片

文本数据的存储

将数据以默认逗号分隔的CSV文件存储

技术分享图片

通过sep参数指定存储的分隔符

技术分享图片

存储数据的时候不保存index或者hader索引

技术分享图片

JSON数据的读取和存储

Excel数据的读取和存储

读取

技术分享图片

存储

技术分享图片

数据库的存储和读取

连接数据库

技术分享图片

读取数据库

存储数据库

通过to_sql函数实现DataFrame数据存储为MySQL数据，首先查看to_sql的参数:

df.to_sql(name,con,flavor=None,schema=None,if_exists="fail",index="True",

index_label=None,chunksize=None,dtype=None)

其中：

name参数为存储的表名

con参数为连接的数据库

if_exists参数用于判断是否有重复表名。

　　其中fail表示如果有重复表名就不保存，

　　 replace表示替换重复表名，

　　　append表示在该表中继续插入数据。

技术分享图片

import pandas as pd

from sqlalchemy import create_engine

engine=create_engine(‘mysql+pymysql://用户名:密码@IP地址:3306/mypython?charset=utf8‘, echo=False)

df.to_sql(‘out‘, engine, if_exists = ‘append‘, index=False)

Web数据的读取

实际上是爬虫

数据的读取与存储

原文：https://www.cnblogs.com/Tunan-Ki/p/11752870.html

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年09月23日 (328)
2021年09月24日 (313)
2021年09月17日 (191)
2021年09月15日 (369)
2021年09月16日 (411)
2021年09月13日 (439)
2021年09月11日 (398)
2021年09月12日 (393)
2021年09月10日 (160)
2021年09月08日 (222)