博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
Pandas重复值处理
阅读量:4360 次
发布时间:2019-06-07

本文共 835 字,大约阅读时间需要 2 分钟。

import pandas as pd#生成数据data1,data2,data3,data4=['a',3],['b',2],['a',3],['c',2]df=pd.DataFrame([data1,data2,data3,data4],columns=['col1','col2'])print(df)  col1  col20    a     31    b     22    a     33    c     2#判断数据isDuplicated=df.duplicated() #判断重复数据记录print(isDuplicated)0    False1    False2     True3    Falsedtype: bool#删除重复的数据print(df.drop_duplicates()) #删除所有列值相同的记录,index为2的记录行被删除  col1  col20    a     31    b     23    c     2print(df.drop_duplicates(['col1'])) #删除col1列值相同的记录,index为2的记录行被删除  col1  col20    a     31    b     23    c     2print(df.drop_duplicates(['col2'])) #删除col2列值相同的记录,index为2和3的记录行被删除  col1  col20    a     31    b     2print(df.drop_duplicates(['col1','col2'])) #删除指定列(col1和col2)值相同的记录,index为2的记录行被删除  col1  col20    a     31    b     23    c     2

转载于:https://www.cnblogs.com/hankleo/p/11462532.html

你可能感兴趣的文章
如何在Centos里面,把.net core程序设为开机自启动
查看>>
1920*1080pc端适配
查看>>
Nutch系列1:简介
查看>>
前端UI框架选择区别对比推荐
查看>>
栈 队列 和 双向队列
查看>>
从垃圾回收看闭包
查看>>
Intel Core Microarchitecture Pipeline
查看>>
如何去除交叉表的子行(列)的小计?
查看>>
Web字体(链接)嵌入
查看>>
switch… case 语句的用法
查看>>
day07补充-数据类型总结及拷贝
查看>>
语言、数据和运算符
查看>>
正则表达式30分钟入门教程
查看>>
sqlserver try catch·
查看>>
怎么在三维世界里叙述五维故事
查看>>
css技巧
查看>>
代码优化(一)
查看>>
为什么JSP会比Beetl慢
查看>>
移动端rem的用法
查看>>
php-laravel中间件使用
查看>>