百度360必应搜狗淘宝本站头条
当前位置:网站首页 > 热门文章 > 正文

经典 - 一文轻松看懂数据透视表 数据透视表完整教程

bigegpt 2024-09-29 09:17 3 浏览

【导语】也许大多数人都知道 Excel 中的数据透视表,也体会到了它的强大功能,那么 Pandas 也提供了一个类似的功能,也就是pivot_table。因为考虑到直接学 pivot_table 会有点难度,所以本篇文章将由浅入深的先通过 excel 实现透视表,慢慢地过渡到利用 pandas 来实现。


一、 什么是数据透视表


透视表是一种可以对数据动态排布并且分类汇总的表格格式。利用透视表可以快速地进行分类汇总,自由组合字段聚合计算。


二、使用 excel 透视表和 pandas 实现的区别


excel:
只需要拖拉拽就能实现, 简单易操作


pandas:
更快(一旦设置之后)
自行说明(通过查看代码,你将知道它做了什么)
易于生成报告或电子邮件
更灵活,因为你可以定制聚合函数


使用数据透视表的一个挑战是,你需要确保你理解你的数据,并清楚地知道你想通过透视表解决什么问题。其实,虽然 pivot_table 看起来只是一个简单的函数,但是它能够快速地对数据进行强大的分析。


三、excel 实现数据透视表


1、创建数据透视表


其实非常的简单,只需要选定我们想要进行透视的表,然后点击菜单栏中的插入透视表。


透视表中有五个基本概念:
筛选:你想要将什么进行分组,比如我想看一下不同供应商的一些信息,那么就是按照供应商进行筛选
列:列值,一般是用时间序列值
行:行值,你想要对什么内容进行展开,比如我想看不同时间段的不同原料
值:具体要看什么值,比如销售额等


在本文中,将会跟踪一个销售渠道(也称为漏斗)。基本的问题是,一些销售周期很长(可以想一下 “企业软件”、“资本设备” 等),而管理者想更详细地了解它一整年的情况。



其实我们只需要将不同的字段拖入到不同的区域中即可,为了方便展示数据,我们可以右键关键字段,然后将其选择上移,这样我们可以实现数据的多级展示。



这里我们注意一个左下角的功能,叫做延迟布局更新,这个当我们的数据量比较大的时候,比如说十万个数据,我们就可以选定这个延迟更新,其实就是设置当我们的字段设置完成之后才进行数据更新,可以最大程度保证我们操作的流畅性。


如果我们对数据透视表的顺序有些不满意,那我们就要按照我们自己的意愿进行顺序的修改,比如说我们选择升序和降序。



当然了,我们也可以直接在选定区域的时候直接选择插入一个透视图,一般默认是柱状图。


所以我们可以与透视表进行对比一下:
筛选:你想要将什么进行分组,比如我想看一下不同供应商的一些信息,那么就是按照供应商进行筛选
轴:其实就是透视表当中的列值,横坐标轴是什么,一般是用时间序列值
图例:也就是系类,等同于透视表当中的行值,你想要对什么内容进行展开,比如我想看不同时间段的不同原料
值:具体要看什么值,比如合格量等



这就是数据透视表与数据透视图的基本操作,这是比较简单的基础内容。


2、更改数据源


数据透视表可以随时随地进行数据源的更改,数据源变更后进行简单的更新就可反映到数据报表中,有两种方式,第一种是数据透视表刷新:如果数据源中的数值进行了更新,刷新即可。如果是数据源的结构或布局变更了,这时就采用更改数据源的方式。



3、插入计算字段


计算字段极大扩展了数据透视表的计算功能,比如原始数据表中有一列数据为销售单价,有一列数据为数量。那么在数据透视表中可以通过计算字段输入公式”= 单价*数量 “,来求出销售额。




值区域是数据透视表的核心部分,通过数据透视表提供的强大数据计算功能,可以使用多种汇总方式和值显示方式来计算值字段数据。比如,百分比,各种比率等。


上面就是用 excel 来实现数据透视表的过程,它不仅可以按照不同的方式汇总数据,还可以按照不同的方式显示数据,从而更清晰的看出数据之间的关系和逻辑。


四、pandas 实现数据透视表


pandas 中的函数 pivot_table 可以实现数据透视表,它的参数如下,下面我们来一个个的学习。我们的数据源和上面 excel 的一样。


pivot_table(data, values=None, index=None, columns=None,aggfunc='mean', fill_value=None, margins=False, dropna=True, margins_name='All')


1、读取数据


import pandas as pd
import numpy as np
df = pd.read_excel("./sales-funnel.xlsx")
df.head()



我们将上表中 “Status” 列定义为 category,并按我们想要的查看方式设置顺序(可选)


df["Status"] = df["Status"].astype("category")
df["Status"].cat.set_categories(["won","pending","presented","declined"],inplace=True)
df.info()



2、建立简单索引


pd.pivot_table(df,index=["Name"])



此外,可以有多个索引。实际上,大多数的 pivot_table 参数可以通过列表获取多个值。


pd.pivot_table(df,index=["Name","Rep","Manager"])



3、实现数据聚合


我们上面将 “Name”,“Rep” 列和 “Manager” 列进行对应分组,那么现在来实现数据聚合。


pd.pivot_table(df,index=["Manager","Rep"],values=["Price"])



“Price” 列会自动计算数据的平均值,但是我们也可以对该列元素进行计数或求和。要添加这些功能,使用 aggfunc 和 np.sum 就很容易实现。


pd.pivot_table(df,index=["Manager","Rep"],values=["Price"],aggfunc=np.sum)



pd.pivot_table(df,index=["Manager","Rep"],values=["Price"],aggfunc=[np.mean,len])


aggfunc 可以包含很多函数,下面就让我们尝试一种方法,即使用 numpy 中的函数 mean 和 len 来进行计算。



4、定义列


如果我们想通过不同产品来分析销售情况,那么变量 “columns” 将允许我们定义一个或多个列。
pivot_table 中一个令人困惑的地方是 “columns(列)” 和“values(值)”的使用。我们只要记住,变量 “columns(列)” 是可选的,它提供一种额外的方法来分割你所关心的实际值。然而,聚合函数 aggfunc 最后是被应用到了变量 “values” 中你所列举的项目上。


pd.pivot_table(df,index=["Manager","Rep"],values=["Price"],
               columns=["Product"],aggfunc=[np.sum])



结果里有很多 NaN,如果想移除它们,我们可以使用 “fill_value” 将其设置为 0。


pd.pivot_table(df,index=["Manager","Rep"],values=["Price"],
               columns=["Product"],aggfunc=[np.sum],fill_value=0)


5、查看总和


如何查看一些综合数据呢?相当于 excel 中的总计,通过 “margins=True” 就可以为我们实现这种功能。


pd.pivot_table(df,index=["Manager","Rep","Product"],
               values=["Price","Quantity"],
               aggfunc=[np.sum,np.mean],fill_value=0,margins=True)



下面,让我们以更高的管理者角度来分析此渠道。根据我们前面对 category 的定义,注意现在 “Status” 是如何排序的。


pd.pivot_table(df,index=["Manager","Status"],values=["Price"],
               aggfunc=[np.sum],fill_value=0,margins=True)



6、不同值执行不同的函数


为了对你选择的不同值执行不同的函数,你可以向 aggfunc 传递一个字典。如果你使用多个 “grouby”,那么你需要评估此时使用透视表是否是一种好的选择。


table = pd.pivot_table(df,index=["Manager","Status"],columns=["Product"],values=["Quantity","Price"],
               aggfunc={"Quantity":len,"Price":[np.sum,np.mean]},fill_value=0)
table



7、透视表过滤


如果只想查看一个管理者(例如 Debra Henley)的数据,可以这样过滤:


table.query('Manager == ["Debra Henley"]')



查看所有的暂停(pending)和成功(won)的交易,如下:


table.query('Status == ["pending","won"]')



希望本文的内容对大家的学习或者工作能带来一定的帮助,每天进步一点点,加油?。

相关推荐

有些人能留在你的心里,但不能留在你生活里。

有时候,你必须要明白,有些人能留在你的心里,但不能留在你生活里。Sometimes,youhavetorealize,Somepeoplecanstayinyourheart,...

Python学不会来打我(34)python函数爬取百度图片_附源码

随着人工智能和大数据的发展,图像数据的获取变得越来越重要。作为Python初学者,掌握如何从网页中抓取图片并保存到本地是一项非常实用的技能。本文将手把手教你使用Python函数编写一个简单的百度图片...

软网推荐:图像变变变 一“软”见分晓

当我们仅需要改变一些图片的分辨率、裁减尺寸、添加水印、标注文本、更改图片颜色,或将一种图片转换为另一种格式时,总比较讨厌使用一些大型的图像处理软件,尤其是当尚未安装此类软件时,更是如此。实际上,只需一...

首款WP8.1图片搜索应用,搜照片得资料

首款WP8.1图片搜索应用,搜照片得资料出处:IT之家原创(天际)2014-11-1114:32:15评论WP之家报道,《反向图片搜索》(ReverseImageSearch)是Window...

分享一组美图(图片来自头条)(头条美女头像)

...

盗墓笔记电视剧精美海报 盗墓笔记电视剧全集高清种子下载

出身“老九门”世家的吴邪,因身为考古学家的父母在某次保护国家文物行动时被国外盗墓团伙杀害,吴家为保护吴邪安全将他送去德国读书,因而吴邪对“考古”事业有着与生俱来的兴趣。在一次护宝过程中他偶然获得一张...

微软调整Win11 24H2装机策略:6月起36款预装应用改为完整版

IT之家7月16日消息,微软公司今天(7月16日)发布公告,表示自今年6月更新开始,已默认更新Windows1124H2和WindowsServer2025系统中预装...

谷歌手把手教你成为谣言终结者 | 域外

刺猬公社出品,必属原创,严禁转载。合作事宜,请联系微信号:yunlugongby贾宸琰编译、整理11月23日,由谷歌新闻实验室(GoogleNewsLab)联合Bellingcat、DigD...

NAS 部署网盘资源搜索神器:全网资源一键搜,免费看剧听歌超爽!

还在为找不到想看的电影、电视剧、音乐而烦恼?还在各个网盘之间来回切换,浪费大量时间?今天就教你如何在NAS上部署aipan-netdisk-search,一款强大的网盘资源搜索神器,让你全网资源...

使用 Docker Compose 简化 INFINI Console 与 Easysearch 环境搭建

前言回顾在上一篇文章《搭建持久化的INFINIConsole与Easysearch容器环境》中,我们详细介绍了如何使用基础的dockerrun命令,手动启动和配置INFINICon...

为庆祝杜特尔特到访,这个国家宣布全国放假?

(观察者网讯)近日,一篇流传甚广的脸书推文称,为庆祝杜特尔特去年访问印度,印度宣布全国放假,并举办了街头集会以示欢迎。菲媒对此做出澄清,这则消息其实是“假新闻”。据《菲律宾世界日报》2日报道,该贴子...

一课译词:毛骨悚然(毛骨悚然的意思是?)

PhotobyMoosePhotosfromPexels“毛骨悚然”,汉语成语,意思是毛发竖起,脊梁骨发冷;形容恐惧惊骇的样子(withone'shairstandingonend...

Bing Overtakes Google in China's PC Search Market, Fueled by AI and Microsoft Ecosystem

ScreenshotofBingChinahomepageTMTPOST--Inastunningturnintheglobalsearchenginerace,Mic...

找图不求人!6个以图搜图的识图网站推荐

【本文由小黑盒作者@crystalz于03月08日发布,转载请标明出处!】前言以图搜图,专业说法叫“反向图片搜索引擎”,是专门用来搜索相似图片、原始图片或图片来源的方法。常用来寻找现有图片的原始发布出...

浏览器功能和“油管”有什么关联?为什么要下载

现在有没有一款插件可以实现全部的功能,同时占用又小呢,主题主要是网站的一个外观,而且插件则主要是实现wordpress网站的一些功能,它不仅仅可以定制网站的外观,还可以实现很多插件的功能,搭载chro...