百度360必应搜狗淘宝本站头条
当前位置:网站首页 > 热门文章 > 正文

数据处理进阶pandas入门(十八) pandas数据预处理

bigegpt 2024-09-29 09:18 3 浏览

回顾

在数据处理进阶pandas入门(十七)中,我们介绍了pandas中对groupby()方法的分组数据处理的两个方法:transform()和apply()。我们需要掌握好这两个方法,对分组数据进行灵活处理。今天我们讲一下pandas中生成数据透视表和交叉表的方法。

生成透视表方法pivot_table()

数据透视表就是将数据的每一列作为输入,输出将数据不断细分成多个维度累计信息的二维数据表。简单来说,数据透视表更像是一种多维的groupb累计操作。pandas中使用pivot_table()方法来生成透视表,基本用法如下。?

import numpy as np
import pandas as pd

date_range = pd.to_datetime(['2019-5-29', '2019-5-30', '2019-5-31']*3)
df = pd.DataFrame({'date':date_range,
 'key': list('abcdabcdb'),
 'values':np.random.rand(9)*10})
print(df)
print("---------------")
print(pd.pivot_table(df, values='values', index='date', columns='key', aggfunc=np.sum))

pivot_table()方法接收一个DataFrame对象 ,values表示要聚合的列;index表示从原数据中筛选出列作为数据透视表中的index索引;columns表示从原数据中筛选出列作为数据透视表中的columns索引;aggfunc表示用于聚合的函数(支持Numpy计算函数),默认为np.mean,可以用字符串或“np.”两种形式表示。运行结果如下图所示。

上述代码生成的数据透视表中有缺失值, pivot_table()方法对缺失值的处理默认以NaN填充。如果我们不想使用NaN,我们也可以通过设置fill_value来指定任意值作为缺失值的填充,基本用法如下。?

import numpy as np
import pandas as pd

date_range = pd.to_datetime(['2019-5-29', '2019-5-30', '2019-5-31']*3)
df = pd.DataFrame({'date':date_range,
 'key': list('abcdabcdb'),
 'values':np.random.rand(9)*10})
print(df)
print("---------------")
print(pd.pivot_table(df, values='values', index='date', columns='key', aggfunc=np.sum, fill_value=0))

再次运行可以发现,缺失值的地方填充值由原来的NaN变成了0。运行结果如下图所示。

pivot_table()方法支持对多列数据同时做数据透视,我们只需给index传入一个包含多列索引的列表即可。例如上述代码中,我们给index参数传入['date', 'key'],pivot_table()方法就会对date列和key列共同做数据透视。代码如下。 ?

import numpy as np
import pandas as pd

date_range = pd.to_datetime(['2019-5-29', '2019-5-30', '2019-5-31']*3)
df = pd.DataFrame({'date':date_range,
 'key': list('abcdabcdb'),
 'values':np.random.rand(9)*10})
print(df)
print("---------------")
print(pd.pivot_table(df, values='values', index=['date', 'key'], aggfunc=len))

运行结果如下图所示。我们使用len作为聚合函数,由于原DataFrame中2019-5-31对应b有两组数据,所以返回长度为2。

生成交叉表方法crosstab()

交叉表是一种常用的分类汇总表格,利用交叉表查询数据非常直观明了。pandas中使用crosstab()方法来生成交叉表,crosstab()方法一般用于计算因子的频率,可以对字符串类型的数据进行透视分析,基本用法如下。?

import numpy as np
import pandas as pd

df = pd.DataFrame({'A':[1, 2, 2, 2, 2],
 'B':['a', 'a', 'b', 'b', 'b'],
 'C':[10, 10, np.nan, 10, 10]})
print(df)
print("---------------")
print(pd.crosstab(df['A'], df['B']))

crosstab()方法如果只接收两个Series,那么会生成一个频率表。上述代码中传入了df['A']、df['B'],那么生成的频率表就是用A的唯一值去统计b的唯一值出现的次数。运行结果如下图所示,1对应‘a’出现的次数为1,2对应‘a’出现的次数为1,2对应‘b’出现的次数为3。

既然是频率表,我们往往希望看到的是占比情况,这时只需设置crosstab()方法中的normalize参数即可。基本用法如下。?

import numpy as np
import pandas as pd

df = pd.DataFrame({'A':[1, 2, 2, 2, 2],
 'B':['a', 'a', 'b', 'b', 'b'],
 'C':[10, 10, np.nan, 10, 10]})
print(df)
print("---------------")
print(pd.crosstab(df['A'], df['B'], normalize=True))

normalize参数默认为False,当我们设置normalize=True时,频率表中的所有值就会除以总和来进行归一化(计算占比)。运行结果如下图所示。

crosstab()方法中有两个参数:values和aggfunc,这两个参数跟生成透视表方法pivot_table()中的参数一样。事实上,crosstab()方法配合values和aggfunc这两个参数也能生成透视表。基本用法如下。?

import numpy as np
import pandas as pd

date_range = pd.to_datetime(['2019-5-29', '2019-5-30', '2019-5-31']*3)
df = pd.DataFrame({'date':date_range,
 'key': list('abcdabcdb'),
 'values':np.random.rand(9)*10})
print(df)
print("---------------")
print(pd.crosstab(df['date'], df['key'], values=df['values'], aggfunc=np.sum))

传入的前两个Series会分别作为透视表的index和columns索引,values为要聚合的列,运行结果如下图所示,可以看到,跟pivot_table()生成的透视表完全一样。

crosstab()方法可以通过设置margins参数给生成的表添加行/列边距,基本用法如下。?

import numpy as np
import pandas as pd

date_range = pd.to_datetime(['2019-5-29', '2019-5-30', '2019-5-31']*3)
df = pd.DataFrame({'date':date_range,
 'key': list('abcdabcdb'),
 'values':np.random.rand(9)*10})
print(df)
print("---------------")
print(pd.crosstab(df['date'], df['key'], values=df['values'], aggfunc=np.sum, margins=True))

margins参数默认为False,当我们设置margins=True时,会在生成的表上添加行/列,用于计算各行各列的和。运行结果如下图所示。

总结

以上内容介绍了pandas中生成数据透视表和交叉表的方法。透视表pivot_table()方法是一种进行分组统计的函数,参数aggfunc决定统计类型;而交叉表crosstab()方法是一种特殊的pivot_table()方法,虽然也可以生成透视表,但我们一般将它专用于计算分组频率。感谢大家的支持与关注,欢迎批评指正,欢迎一起交流~

?

相关推荐

有些人能留在你的心里,但不能留在你生活里。

有时候,你必须要明白,有些人能留在你的心里,但不能留在你生活里。Sometimes,youhavetorealize,Somepeoplecanstayinyourheart,...

Python学不会来打我(34)python函数爬取百度图片_附源码

随着人工智能和大数据的发展,图像数据的获取变得越来越重要。作为Python初学者,掌握如何从网页中抓取图片并保存到本地是一项非常实用的技能。本文将手把手教你使用Python函数编写一个简单的百度图片...

软网推荐:图像变变变 一“软”见分晓

当我们仅需要改变一些图片的分辨率、裁减尺寸、添加水印、标注文本、更改图片颜色,或将一种图片转换为另一种格式时,总比较讨厌使用一些大型的图像处理软件,尤其是当尚未安装此类软件时,更是如此。实际上,只需一...

首款WP8.1图片搜索应用,搜照片得资料

首款WP8.1图片搜索应用,搜照片得资料出处:IT之家原创(天际)2014-11-1114:32:15评论WP之家报道,《反向图片搜索》(ReverseImageSearch)是Window...

分享一组美图(图片来自头条)(头条美女头像)

...

盗墓笔记电视剧精美海报 盗墓笔记电视剧全集高清种子下载

出身“老九门”世家的吴邪,因身为考古学家的父母在某次保护国家文物行动时被国外盗墓团伙杀害,吴家为保护吴邪安全将他送去德国读书,因而吴邪对“考古”事业有着与生俱来的兴趣。在一次护宝过程中他偶然获得一张...

微软调整Win11 24H2装机策略:6月起36款预装应用改为完整版

IT之家7月16日消息,微软公司今天(7月16日)发布公告,表示自今年6月更新开始,已默认更新Windows1124H2和WindowsServer2025系统中预装...

谷歌手把手教你成为谣言终结者 | 域外

刺猬公社出品,必属原创,严禁转载。合作事宜,请联系微信号:yunlugongby贾宸琰编译、整理11月23日,由谷歌新闻实验室(GoogleNewsLab)联合Bellingcat、DigD...

NAS 部署网盘资源搜索神器:全网资源一键搜,免费看剧听歌超爽!

还在为找不到想看的电影、电视剧、音乐而烦恼?还在各个网盘之间来回切换,浪费大量时间?今天就教你如何在NAS上部署aipan-netdisk-search,一款强大的网盘资源搜索神器,让你全网资源...

使用 Docker Compose 简化 INFINI Console 与 Easysearch 环境搭建

前言回顾在上一篇文章《搭建持久化的INFINIConsole与Easysearch容器环境》中,我们详细介绍了如何使用基础的dockerrun命令,手动启动和配置INFINICon...

为庆祝杜特尔特到访,这个国家宣布全国放假?

(观察者网讯)近日,一篇流传甚广的脸书推文称,为庆祝杜特尔特去年访问印度,印度宣布全国放假,并举办了街头集会以示欢迎。菲媒对此做出澄清,这则消息其实是“假新闻”。据《菲律宾世界日报》2日报道,该贴子...

一课译词:毛骨悚然(毛骨悚然的意思是?)

PhotobyMoosePhotosfromPexels“毛骨悚然”,汉语成语,意思是毛发竖起,脊梁骨发冷;形容恐惧惊骇的样子(withone'shairstandingonend...

Bing Overtakes Google in China's PC Search Market, Fueled by AI and Microsoft Ecosystem

ScreenshotofBingChinahomepageTMTPOST--Inastunningturnintheglobalsearchenginerace,Mic...

找图不求人!6个以图搜图的识图网站推荐

【本文由小黑盒作者@crystalz于03月08日发布,转载请标明出处!】前言以图搜图,专业说法叫“反向图片搜索引擎”,是专门用来搜索相似图片、原始图片或图片来源的方法。常用来寻找现有图片的原始发布出...

浏览器功能和“油管”有什么关联?为什么要下载

现在有没有一款插件可以实现全部的功能,同时占用又小呢,主题主要是网站的一个外观,而且插件则主要是实现wordpress网站的一些功能,它不仅仅可以定制网站的外观,还可以实现很多插件的功能,搭载chro...