import pandas as pd#生成数据data1,data2,data3,data4=['a',3],['b',2],['a',3],['c',2]df=pd.DataFrame([data1,data2,data3,data4],columns=['col1','col2'])print(df) col1 col20 a 31 b 22 a 33 c 2#判断数据isDuplicated=df.duplicated() #判断重复数据记录print(isDuplicated)0 False1 False2 True3 Falsedtype: bool#删除重复的数据print(df.drop_duplicates()) #删除所有列值相同的记录,index为2的记录行被删除 col1 col20 a 31 b 23 c 2print(df.drop_duplicates(['col1'])) #删除col1列值相同的记录,index为2的记录行被删除 col1 col20 a 31 b 23 c 2print(df.drop_duplicates(['col2'])) #删除col2列值相同的记录,index为2和3的记录行被删除 col1 col20 a 31 b 2print(df.drop_duplicates(['col1','col2'])) #删除指定列(col1和col2)值相同的记录,index为2的记录行被删除 col1 col20 a 31 b 23 c 2