Pandas数据预处理计数与去重

在进行数据处理过程中，常常需要对数据中的数字进行计数，查看哪些数字出现的频次比较高，对重复数据进行删减。示例代码如下。

In [1]: import pandas as pd
In [2]: a=pd.Series([1,2,"a","a","b"])

values_counts 方法可以用来对序列中的值进行计数。

In [3]: a.value_counts()  # 值类别计数
Out[3]: 
a    2
2    1
1    1
b    1
dtype: int64

count 方法用来计算序列中非空元素的个数。

In [4]: a.count()  # 非空元素个数
Out[4]: 5

factorize 方法可以对序列中的元素进行归类。

In [5]: a.factorize()  # 归类元素
Out[5]: (array([0, 1, 2, 2, 3], dtype=int64), Index([1, 2, 'a', 'b'], dtype='object'))

unique 方法可以用来返回序列中的唯一值。

In [6]: a.unique()  # 返回唯一的值
Out[6]: array([1, 2, 'a', 'b'], dtype=object)

is_unique 方法可以用来判断序列中的值是否是唯一的，因为 a 序列中含有两个字符 a，所以该序列并不是唯一的，最终结果返回 False。

In [7]: a.is_unique  # 是否都是唯一的
Out[7]: False

drop_duplicates 方法可以用来删除序列中的重复元素。这里删除 a 序列中重复的字符 a。

In [8]: a.drop_duplicates()  # 删除重复元素
Out[8]: 
0    1
1    2
2    a
4    b
dtype: object

duplicate 方法可以用来返回重复值的索引。

In [9]: a.duplicated()  # 返回重复索引
Out[9]: 
0    False
1    False
2    False
3     True 
4    False
dtype: bool

声明：《Python系列教程》为本站“54笨鸟”官方原创，由国家机构和地方版权局所签发的权威证书所保护。

新手在线学习编程的网站，专注于分享优质精品课程。您的下一套教程，何必是书籍。