数据处理进阶pandas入门(六) pandas 数据处理

bigegpt 2024-10-23 08:53 5 浏览

回顾

在数据处理进阶pandas入门（五）中，我们介绍了pandas中DataFrame的索引和切片的相关知识，对行索引和列索引的用法和差别做了比较。今天我们来看一下DataFrame的一些特性和使用技巧功能。

通过head()和tail()查看DataFrame数据

head()函数和tail()函数的用法与查看Series数据时一样，只是对于DataFrame，它们查看的是DataFrame的行。?

import numpy as np
import pandas as pd

data = np.random.rand(300).reshape(50, 6) * 100
df = pd.DataFrame(data)
print(df.head())
print("---------------")
print(df.head(2))
print("---------------")
print(df.tail())
print("---------------")
print(df.tail(3))

head()函数和tail()函数分别查看DataFrame的前几行和最后几行，当不传参数时，默认为前5行和后5行，想看指定行数时，传入对应数字即可。运行结果如下所示。

DataFrame的转置

对于DataFrame数据的查看，我们并不总是只想查看前几行或后几行，有时候我们想要查看前几列或后几列，这时可以利用DataFrame的转置，将原来的列变成行，再对转置后的DataFrame使用head()函数和tail()函数就可以顺利查看原DataFrame的前几列或后几列了。

由于DataFrame在结构上类似于NumPy的二维ndarray，可以将它当矩阵进行转置处理，DataFrame也拥有“T”属性用于转置，基本用法如下。?

import numpy as np
import pandas as pd

data = np.random.rand(24).reshape(4, 6) * 100
df = pd.DataFrame(data, columns=list('abcdef'))
print(df)
print("---------------")
print(df.T)

使用“T”属性对DataFrame进行转置，结果生成一个新的DataFrame，并不改变原DataFrame。转置后相当于对原DataFrame的行和列做了交换，运行结果如下所示。

对转置后的DataFrame使用head()函数和tail()函数就可以顺利查看原DataFrame的前几列和后几列了。 ?

import numpy as np
import pandas as pd

data = np.random.rand(24).reshape(4, 6) * 100
df = pd.DataFrame(data, columns=list('abcdef'))
print(df)
print("---------------")
df_T = df.T
print(df_T.head(2))
print("---------------")
# 对结果再做一次转置可得到原DataFrame的列的形式
print(df_T.tail(3).T)

虽然这种方法本质上查看的是转置后DataFrame的行，但其实我们顺利得到了原DataFrame的列。若要保持原DataFrame列的形式，只需要对查看转置后DataFrame的数据再做一次转置即可。上述代码中，我们在获取转置后DataFrame的最后3行后对其进行转置，结果就像是获取了原DataFrame的最后3列一样。运行结果如下所示。

DataFrame的添加和修改

DataFrame的添加和修改基于DataFrame的索引，分别使用DataFrame[]和loc[]或iloc[]对DataFrame的列和行进行添加和修改，对于原DataFrame中没有的行索引或列索引，DataFrame会自动进行新增行或列的操作；对于原DataFrame中已有的行索引或列索引，DataFrame会自动进行修改指定行或列的操作。基本用法如下。?

import numpy as np
import pandas as pd

data = np.random.rand(12).reshape(3, 4) * 100
df = pd.DataFrame(data, index=list('abc'), columns=list('ABCD'))
print(df)
print("---------------")
# 新增列/行
df['E'] = 1
print(df)
print("---------------")
df.loc['d'] = 2
print(df)
print("---------------")
# 修改列/行
df['E'] = 10
print(df)
print("---------------")
df.loc['d'] = 20
print(df)

这里需要注意，不同于索引可以支持多行多列索引，DataFrame的添加和修改一次只能单行单列操作，例如上述使用df[['E'，'F']]=1是不合法的，会报错。运行结果如下所示。

以上是对一整行或一整列的添加和修改，我们也可以对指定某个位置上的值进行修改。?

import numpy as np
import pandas as pd

data = np.random.rand(12).reshape(3, 4) * 100
df = pd.DataFrame(data, index=list('abc'), columns=list('ABCD'))
print(df)
print("---------------")
df['D'].loc['a'] = 1
print(df)

我们将D列a行位置上的数据修改为1，运行结果如下所示。

添加操作只支持整行或整列，若试图添加某个单独位置，则会报错。

DataFrame的删除

? pandas中分别使用“del”关键字和drop()函数来删除DataFrame的列和行。其中drop()函数的inplace参数默认为False，即返回一个新的DataFrame，若想改变原DataFrame，需将inplace参数设置为True。“del”关键字和drop()函数的基本用法如下。?

import numpy as np
import pandas as pd

data = np.random.rand(12).reshape(3, 4) * 100
df = pd.DataFrame(data, index=list('abc'), columns=list('ABCD'))
print(df)
print("---------------")
# 删除列
del df['A']
print(df)
print("---------------")
# 删除行
df.drop(['a'], inplace=True)
print(df)
# drop删除列
df.drop(['B'], axis = 1, inplace=True)
print(df)

与DataFrame的添加操作一样， DataFrame的删除只支持整行或整列操作，若想删除某个指定位置上的数据，可以将该位置上的数据修改为NaN。

DataFrame的自动对齐特性

当多个DataFrame进行运算时，DataFrame会根据行索引和列索引自动对齐，对共有的索引对应值进行相关运算，不共有的索引对应值则分别以缺失值NaN填充。 ?

import numpy as np
import pandas as pd

data1 = np.random.rand(12).reshape(3, 4) * 100
df1 = pd.DataFrame(data1, index=list('abc'), columns=list('ABCD'))
data2 = np.random.rand(12).reshape(4, 3) * 100
df2 = pd.DataFrame(data2, index=list('abcd'), columns=list('ABC'))
print(df1)
print("---------------")
print(df2)
print("---------------")
print(df1 + df2)

运行结果如下所示。可以看到，运算结果会包含参与运算的DataFrame的所有行索引和列索引。实际上，上述的df1和df2在运算前先进行了对齐，df1补了一个值全为NaN的行d，df2补了一个值全为NaN的列D，然后再进行运算，与NaN运算的结果就是NaN。

DataFrame的排序

pandas中使用sort_values()函数和sort_index()函数分别对DataFrame的数据值和索引进行排序。

我们先看一下对数据值的排序，sort_values()函数中传入要排序的行索引或列索引，注意必须是列表格式。ascending参数默认为True正序，设置ascending=False时为倒序。axis默认为0，按列排序，所以当按行排序时，传入行索引的同时必须设置axis=1。基本用法如下。??

import numpy as np
import pandas as pd

data = np.random.rand(12).reshape(3, 4) * 100
df = pd.DataFrame(data, index=list('abc'), columns=list('ABCD'))
print(df)
print("---------------")
# 按列排序
print(df.sort_values(['A']))
print("---------------")
print(df.sort_values(['A'], ascending=False))
print("---------------")
# 按行排序
print(df.sort_values(['a'], axis=1))

运行结果如下所示。

我们也可以同时对多行或多列排序。以多列为例，排序规则为首先按第一个索引列进行排序，若有相同值，则比较第二个索引列对应位置上的值，依次类推。?

import numpy as np
import pandas as pd

# 多列排序 当A中有相同值时再按C排序
data = np.array([[1, 2, 4, 3], [2, 2, 1, 2], [1, 2, 1, 1]])
df = pd.DataFrame(data, index=list('abc'), columns=list('ABCD'))
print(df)
print("---------------")
print(df.sort_values(['A', 'C']))

运行结果如下所示。A列中，a行与c行的值都为1，则看C列中a行与c行位置上的值，c位置上的值更小，所以c行排前面，最终顺序为c、a、b。

对索引值的排序使用sort_index()函数，用法类似sort_values()函数，基本用法如下。?

import numpy as np
import pandas as pd

data = np.random.rand(12).reshape(3, 4) * 100
df = pd.DataFrame(data, index=list('acb'), columns=list('DBAC'))
print(df)
print("---------------")
print(df.sort_index())
print("---------------")
print(df.sort_index(ascending=False))
print("---------------")
print(df.sort_index(axis=1))
print("---------------")
print(df.sort_index(axis=1, ascending=False))

运行结果如下所示。 ascending参数默认为True正序，设置ascending=False时为倒序。axis参数默认为0，对列索引排序，想要对行索引排序时，需将axis设置为1。

总结

以上介绍了DataFrame的一些特性和基本使用技巧方法，主要包括DataFrame运算时的自动对齐特性以及对DataFrame数据的查看、添加、修改、删除、排序等。感谢大家的关注，欢迎批评指正，一起交流~

dataframe重置索引

上一篇：同事给你迷之Excel数据，4个数据处理案例教你Python数据对比更新
下一篇：数据分析-pandas之Serises,DataFrame索引和复合索引

数据处理进阶pandas入门(六) pandas 数据处理

回顾

通过head()和tail()查看DataFrame数据

DataFrame的转置

DataFrame的添加和修改

DataFrame的删除

DataFrame的自动对齐特性

DataFrame的排序

总结

相关推荐

idea本地配置连接远程hadoop集群的一些网络问题解决汇总

无缓存不行?例行升级的入门级阿斯加特AN2 SSD装机点评

Ceph运维手册(基于P版本)

大数据开发前要做什么准备?8台Hadoop服务器进行集群规划前配置

Tensorflow分类loss函数总结 tensorflow绘制loss曲线

R语言学习笔记(七) -离散型数据的模型预测2

iOS Runtime详解

PHP 远程调试最佳实践

7 个对 Java 意义重大的性能指标，你知道几个?

Laravel框架使用图片处理简单教程