数据清洗的几种方法

时间：2019-11-19 10:48:32 阅读：102 评论：0 收藏：0 [点我收藏+]

1. 导入数据集

d1 = pd.read_excel('清洗数据.xlsx',sheetname='一级流量')
d2 = pd.read_excel('清洗数据.xlsx',sheetname='二级流量')
d3 = pd.read_excel('清洗数据.xlsx',sheetname='三级流量')

2. 拓展数据维度

# 纵向扩展维度
df = pd.concat([d1,d2,d3])

# 横向合并
df = pd.concat([d1,d2,d3],axis=1)
# merge 横向合并
pd.merge(left=h1,right=h2,left_index=True,right_index=True,how='inner')
# 删除空值
df.dropna()
# subset参数，只有当这一行中指定字段参数为空值时，才能删除
dropna(subset=['city'])
# 去重
unique = repeat.drop_duplicates()

3. 查询

# 按条件查询
df.loc[(df['访客数']>10000) & (df['流量级别'] == '一级'),:]

# 排序
sort_df = df.sort_values('支付金额',ascending=False)

# 分桶
pd.cut(x,bins,right,labels)
# x 可以是一维数组，可以是列表，也可以是dataframe中的一列
# bins分组的间隔方法
# right=True表示分组的区间包含右边不包含左边，right=False 表示分组的区间包含左边不包含右边
# labels 根据分组打标签

df['分类标签'] = pd.cut(x = df['访客数']
                   ,bins = [0,100,200,300]
                   ,right=True
                   ,labels=['辣鸡'，'优秀','非常满意'])

数据清洗的几种方法

原文：https://www.cnblogs.com/yangjiez/p/11887754.html

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年09月23日 (328)
2021年09月24日 (313)
2021年09月17日 (191)
2021年09月15日 (369)
2021年09月16日 (411)
2021年09月13日 (439)
2021年09月11日 (398)
2021年09月12日 (393)
2021年09月10日 (160)
2021年09月08日 (222)