pandas 删除重复项

时间：2021-01-16 22:18:44 阅读：45 评论：0 收藏：0 [点我收藏+]

使用如下函数：

drop_duplicates

具体示例如下：

import pandas as pd
# 建立一个dataframe数据
df = pd.DataFrame({‘k1‘:[‘one‘]*3+[‘two‘]*4,‘k2‘:[1,1,2,3,3,4,4]})
df[‘v1‘]=range(7)
df  
# 结果：
    k1  k2  v1
0   one 1   0
1   one 1   1
2   one 2   2
3   two 3   3
4   two 3   4
5   two 4   5
6   two 4   6

1.删除完全重复的行

df.drop_duplicates()
# 由于没有完全重复的行，因此返回结果跟原数据一致
# 结果：
    k1  k2  v1
0   one 1   0
1   one 1   1
2   one 2   2
3   two 3   3
4   two 3   4
5   two 4   5
6   two 4   6

2.按k1进行去重，对于重复项，保留第一次出现的值

df.drop_duplicates(‘k1‘,keep=‘first‘)
# 结果：
    k1  k2  v1
0   one 1   0
3   two 3   3

3.按k2和k1两列进行去重

df.drop_duplicates([‘k2‘,‘k1‘],keep=‘first‘)
# 结果：
    k1  k2  v1
0   one 1   0
2   one 2   2
3   two 3   3
5   two 4   5

keep：{‘first’, ‘last’, False}, 默认值 ‘first’

first：保留第一次出现的重复行，删除后面的重复行。
last：删除前面的重复项，保留最后一次出现的重复行。
False：删除所有重复项

参考链接：https://www.jianshu.com/p/cb217042aca9

pandas 删除重复项

原文：https://www.cnblogs.com/leoych/p/14286635.html

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年09月23日 (328)
2021年09月24日 (313)
2021年09月17日 (191)
2021年09月15日 (369)
2021年09月16日 (411)
2021年09月13日 (439)
2021年09月11日 (398)
2021年09月12日 (393)
2021年09月10日 (160)
2021年09月08日 (222)