首页 > 其他 > 详细

pandas 删除重复项

时间:2021-01-16 22:18:44      阅读:37      评论:0      收藏:0      [点我收藏+]

使用如下函数:

drop_duplicates

具体示例如下:

import pandas as pd
# 建立一个dataframe数据
df = pd.DataFrame({k1:[one]*3+[two]*4,k2:[1,1,2,3,3,4,4]})
df[v1]=range(7)
df  
# 结果:
    k1  k2  v1
0   one 1   0
1   one 1   1
2   one 2   2
3   two 3   3
4   two 3   4
5   two 4   5
6   two 4   6
1.删除完全重复的行
df.drop_duplicates()
# 由于没有完全重复的行,因此返回结果跟原数据一致
# 结果:
    k1  k2  v1
0   one 1   0
1   one 1   1
2   one 2   2
3   two 3   3
4   two 3   4
5   two 4   5
6   two 4   6
2.按k1进行去重,对于重复项,保留第一次出现的值
df.drop_duplicates(k1,keep=first)
# 结果:
    k1  k2  v1
0   one 1   0
3   two 3   3
3.按k2和k1两列进行去重
df.drop_duplicates([k2,k1],keep=first)
# 结果:
    k1  k2  v1
0   one 1   0
2   one 2   2
3   two 3   3
5   two 4   5

keep:{‘first’, ‘last’, False}, 默认值 ‘first’

  • first:保留第一次出现的重复行,删除后面的重复行。
  • last:删除前面的重复项,保留最后一次出现的重复行。
  • False:删除所有重复项

 

参考链接:https://www.jianshu.com/p/cb217042aca9

pandas 删除重复项

原文:https://www.cnblogs.com/leoych/p/14286635.html

(0)
(0)
   
举报
评论 一句话评论(0
关于我们 - 联系我们 - 留言反馈 - 联系我们:wmxa8@hotmail.com
© 2014 bubuko.com 版权所有
打开技术之扣,分享程序人生!