百度360必应搜狗淘宝本站头条
当前位置:网站首页 > 热门文章 > 正文

教你快速掌握Python描述统计

bigegpt 2024-08-04 11:33 9 浏览

在学习描述统计之前,我们有必要了解一下数据的类型。有很多种对数据分类的方法,在这里,我们会将数据分为定性数据和定量数据。

其中,定性数据是对事物性质进行描述的数据,通常只有有限个离散取值,往往用于描述类别;定量数据则是呈现事物数量特征的数据,这些数据的大小往往是有意义的,它们可以相加、相减、相除甚至相乘,得到的结果往往是有意义的。

描述统计往往对应着数据探索的过程,我们在进行描述统计的时候,一般会从三个方面来完成:

  1. 图表
  2. 集中趋势的度量
  3. 离散趋势的度量

那么接下来我们就演示下如何使用Python来完成这些工作。

一、图表

我们经常会使用直方图、饼图、条形图、折线图、散点图等来描述数据的分布、趋势、变量间的相互关系等。

好的图表对于数据探索来说尤其重要,它们能帮我们节省大量的时间。关于可视化这一部分,我在前边写了一些文章:《从零开始学Python可视化》系列以及《7天学会Python最佳可视化工具Seaborn》系列,感兴趣的可以看一下我的历史文章,在这里我们就不赘述了。

二、集中趋势的度量

在分析数据的时候,我们往往最先想要关注的就是数据的集中分布情况,即这些数据主要分布在什么位置附近。

在统计学中,有许多专门用于描述数据集中趋势的统计量。常用的有算术平均值、几何平均值、中位数、众数、百分数等,接下来我们就用Python显示一下如何计算这些指标。

获取数据

首先,我们获取上证指数的历史行情数据,用于我们的学习。

import tushare as ts
pro = ts.pro_api()
df = pro.index_daily(ts_code='000001.SH')
df.head()

算数平均数

算数平均数可能是我们最熟悉的指标了,它就是我们常说的一组数据的平均值。计算方法很简单,先求得这组数据的和,然后除以这组数据的长度即可。

我们看下上证指数的历史收盘价的均值是多少:

df.close.mean()

输出为:

1916.2117831752516

在这里,我们使用了pandas内置的方法,直接得出了均值。但我们还有其他的备选方法,用于针对不同的数据格式:

# 使用numpy
import numpy as np
x = [1, 2, 3, 4]
mean = np.mean(x)
# 使用Python内置函数`sum`和`len`
mean = sum(x) / len(x)

几何平均数

几何平均数与算数平均数不同,它是将所有数据的乘积进行开方。比如我们有四个数据,那我们就需要先求得它们四个的乘积,然后对结果开四次方。

几何平均值特别适合用于收益率的数据分析,在我们的案例中,每天的收益数据就特别适合使用几何平均值来分析。

那我们就先来看下上证指数过去7天的年复合收益率是多少。

# 使用scipy
from scipy.stats import gmean
x = df.pct_chg[:7].map(lambda x: x/100+1)
g_mean = gmean(x)
# 使用Python自带工具
from functools import reduce
multi = reduce(lambda a, b: a * b, x)
g_mean = multi ** (1/len(x))
g_mean

输出为:

0.9950290138635192

嗯。。平均每天亏0.5个百分点,很像是A股的情况。

中位数

中位数的一个好处是对于离群点(异常值)不太敏感,而算数平均值很容易受到离群点的影响,比如有99个1,有1个101。它们的中位数肯定是1,这个很符合他们的分布情况;但是它们的算数平均值为2,这个就有些失真了。

我们看下如何计算他们的中位数。

# 使用pandas
df.pct_chg.median()
# 使用numpy
np.median(df.pct_chg)

输出为:

0.0664

哈哈哈,没想到吧,大多数的日子里,我们A股是涨的!

众数

众数代表了一组数据中出现次数最多的数值,它也不太容易受到极端值的影响,不过实际的数据分析过程中,我们用它的次数比较少。

from scipy.stats import mode
x = [1, 2, 3, 3, 3, 4, 4]
mode(x)[0][0]

输出为3。

百分位数

中位数就是一个特殊的百分位数——50分位数。另外两个常用的分位数是上下四分位数,它们分别代表了数据中按大小增序排列第75%和25%的位置的数字。

quantiles = [df.close.quantile(i) for i in [0.1, 0.25, 0.75, 0.9]]
quantiles

输出为:

[649.6120000000001, 1155.042, 2706.361, 3253.4112999999998]

可以看到,650高于10%的收盘价,1155高于25%的收盘价,2706高于75%的收盘价,3253则高于90%的收盘价。

三、离散趋势的度量

数据的集中分布仅仅是一个角度,想要全面的了解数据,还需要知道它们的变异性。统计学中有一系列的统计指标用于衡量数据的偏离程度,常用的有极差、平均绝对偏差、方差、标准差等。

极差

极差非常好理解,就是最大值与最小值之间的差。

# 使用pandas
df.close.max() - df.close.min()
# 使用numpy
np.max(df.close) - np.min(df.close)
# 使用Python自带工具
max(df.close) - min(df.close)

输出为5992.077。

平均绝对偏差(MAD)

我们可以用一组数据与它们的均值的偏差来度量数据的离散程度。很容易想到,它们与均值的偏差的和为0,因为他们是均匀分布在均值两侧的。因此我们不能使用偏差的和来度量离散程度,但是我们可以用偏差的绝对值的均值来完成这一任务。它代表了平均每个样本与其均值的偏差程度。

# 使用pandas

df.pct_chg.mad()

输出为:1.322715762398073

方差和标准差

这两个就常见许多了,对于方差的计算相当于把MAD的计算中“差值的绝对值”这一过程改成了“差值的平方”,而标准差则是方差的平方根。

# 使用pandas
# 方差
df.pct_chg.var() 
# 标准差
df.pct_chg.std() 
# 使用numpy
# 方差
np.var(df.pct_chg)
# 标准差
np.std(df.pct_chg)

方差输出为6.262636777426539,标准差输出为2.502526079270012。

好了,今天我们学习了常见的数据的描述统计并且使用Python模拟了计算过程,你学会了吗?

相关推荐

恢复软件6款汇总推荐,帮你减轻数据恢复压力!

在当今数字化生活中,数据丢失的风险如影随形。无论是误删文件、硬盘故障,还是遭遇病毒攻击,丢失的数据都可能给我们带来不小的麻烦。此时,一款优秀的数据恢复软件就成为了挽救数据的关键。今天,为大家汇总推荐...

中兴星星一号刷回官方原版recovery的教程

【搞科技教程】中兴星星一号的官方recovery也来说一下了,因为之前给大家分享过了第三方的recovery了,之前给大家分享的第三方recovery也是采用一键刷入的方式,如果细心的朋友会发现,之前...

新玩机工具箱,Uotan柚坛工具箱软件体验

以前的手机系统功能比较单调,各厂商的重视程度不一样,所以喜欢玩机的朋友会解锁手机系统的读写权限,来进行刷机或者ROOT之类的操作,让使用体验更好。随着现在的手机系统越来越保守,以及自身功能的增强,...

三星g906k刷recovery教程_三星g906k中文recovery下载

【搞科技教程】看到有一些机友在找三星g906k的第三方recovery,下面就来说一下详细的recovery的刷入方法了,因为手机只有有了第三方的recovery之后才可以刷第三方的root包和系统包...

中兴星星2号刷recovery教程_星星二号中文recovery下载

【搞科技教程】咱们的中兴星星2手机也就是中兴星星二号手机的第三方recovery已经出来了,并且是中文版的,有了这个recovery之后,咱们的手机就可以轻松的刷第三方的系统包了,如果没有第三方的re...

数据恢复软件有哪些值得推荐?这 6 款亲测好用的工具汇总请收好!

在数字生活中,数据丢失的阴霾常常突如其来。无论是误删工作文档、格式化重要磁盘,还是遭遇系统崩溃,都可能让我们陷入焦虑。关键时刻,一款得力的数据恢复软件便是那根“救命稻草”。今天,为大家精心汇总6...

中兴u956刷入recovery的教程(中兴e5900刷机)

【搞科技教程】这次主要来给大家说说中兴u956手机如何刷入第三方的recovery,因为第三方的recovery工具是咱们刷第三方rom包的基础,可是很我欠却不会刷,所以太这里来给大家整理了一下详细的...

联想A850+刷recovery教程 联想A850+第三方recovery下载

【搞科技教程】联想A850+的第三方recovery出来了,这个第三方的recovery是非常的重要的,比如咱们的手机要刷第三方的系统包的时候,都是需要用到这个第三方的recovery的,在网上也是有...

工具侠重大更新 智能机上刷机一条龙完成

工具侠是针对玩机的机油开发的一款工具,不管是发烧级别的粉丝,还是普通小白用户,都可以在工具侠上找到你喜欢的工具应用。这不,最新的工具侠2.0.16版本,更新了专门为小白准备的刷机助手工具,以及MTK超...

shift+delete删除的文件找回6种硬盘数据恢复工具

硬盘作为电脑的重要存储设备,如同一个巨大的数字仓库,承载着我们日常工作、学习和生活中的各种文件,从珍贵的照片、重要的工作文档到喜爱的视频、音乐等,都依赖硬盘来安全存放。但有时,我们可能会不小心用sh...

使用vscode+Deepseek 实现AI编程 基于Cline和continue

尊敬的诸位!我是一名专注于嵌入式开发的物联网工程师。关注我,持续分享最新物联网与AI资讯和开发实战。期望与您携手探寻物联网与AI的无尽可能。这两天deepseek3.0上线,据说编程能力比肩Cl...

详解如何使用VSCode搭建TypeScript环境(适合小白)

搭建Javascript环境因为TypeScript不能直接在浏览器上运行。它需要编译器来编译并生成JavaScript文件。所以需要首先安装好javascript环境,可以参考文章:https://...

使用VSCode来书写你的Jupyter Notebooks

现在你可以在VScode里面来书写你的notebook了,使用起来十分的方便。下面来给大家演示一下环境的搭建。首先需要安装一个jupyter的包,使用下面的命令安装:pip3install-ih...

使用VSCode模板提高Vue开发效率(vscode开发vue插件)

安装VSCode安装Vetur和VueHelper插件,安装完成后需要重启VScode。在扩展插件搜索框中找到如下Vetur和VueHelper两个插件,注意看图标。添加Vue模板打...

干货!VsCode接入DeepSeek实现AI编程的5种主流插件详解

AI大模型对编程的影响非常之大,可以说首当其冲,Cursor等对话式编程工具渐渐渗透到开发者的工作中,作为AI编程的明星产品,Cursor虽然好用,但是贵啊,所以咱们得找平替,最好免费那种。俗话说,不...