百度360必应搜狗淘宝本站头条
当前位置:网站首页 > 热门文章 > 正文

用直方图和箱线图理解数据

bigegpt 2024-08-14 14:51 2 浏览


了解如何从直方图和箱线图中提取信息

理解这些数据并不意味着只得到平均值、中位数和标准差。很多时候,了解数据的可变性、传播或分布是很重要的。直方图和箱线图都有助于提供有关数据集的大量额外信息,有助于理解数据。

直方图

直方图只从数据集中获取一个变量,并显示每次出现的频率。我将使用一个简单的数据集来学习直方图如何帮助理解数据集。我会用python来制作图片。导入数据集:

import pandas as pd
import seaborn as sns 
import matplotlib.pyplot as plt
df = pd.read_csv("Cartwheeldata.csv")
df.head()

此数据集显示Cartweel数据。假设,办公室里的人决定去野餐时参加手推车距离竞赛。上面的数据集显示了结果。让我们了解一下数据。

1.做一个“Age”的柱状图。

sns.distplot(df['Age'], kde =False).set_title("Histogram of age")

从上面的图片可以看出,大多数人都在30岁以下。只有一个人39岁,一个人54岁。

2.查看“CWDistance”的分布

sns.distplot(df["CWDistance"], kde=False).set_title("Histogram of CWDistance")

很漂亮的阶梯。很难说哪个波段的频率最高。

3.有时将两个分布图一起绘制可以很好地理解。在同一图中绘制“Height”和CWDistance”。

sns.distplot(df["Height"], kde=False)
sns.distplot(df["CWDistance"], kde=False).set_title("Histogram of height and score")

从这张照片上看,我们不能说高度和距离之间有关系。

现在看,我们可以从箱线图中提取什么样的信息。

箱线图

方框图显示了数据的分布和更详细的信息。它更清楚地显示了异常值:最大值、最小值、四分位数(Q1)、第三四分位数(Q3)、四分位数范围(IQR)和中值。你可以从IQR中计算出中间的50%。

它还提供了有关数据倾斜度、数据闭合程度和数据分布的信息。

让我们看一些使用Cartwheel数据的例子。

1.画一个“Score”的箱线图。

sns.boxplot(df["Score"])

从这个图片,我们可以说,

  • 分布是正态的
  • 中位数是6
  • 最低分是2分
  • 最高分是8分
  • 第一个四分位数(前25%)是4
  • 第三个四分位数(75%)是8
  • 中间50%的数据范围是4到8。
  • 四分位数的范围是4。

2.在同一个箱线图中绘制两个变量有助于理解其中一个变量如何影响另一个变量。在同一个图中绘制CWDistance和“Glasses”以查看Glasses是否对CWDistance有任何影响。

sns.boxplot(x = df["CWDistance"], y = df["Glasses"])

没有戴眼镜的人的中位数比戴眼镜的人高。不戴眼镜的人的总体范围较低,但IQR值较高。

从上图来看,IQR的范围是72到94。但对于戴眼镜的人来说,CWDistance的总体范围更大,而IQR则在66到90之间,这比不戴眼镜的人要小。

3.对于分别戴眼镜和不戴眼镜的人来说,CWDistance的柱状图可以提供更多的理解。

g = sns.FacetGrid(df, row = "Glasses")
g = g.map(plt.hist, "CWDistance")

从这张照片上看,戴眼镜的人的最大频率是在CWDistance的开始。glasses对CWDistance的影响还需要进一步的研究。建立一个置信区间可能会有帮助。

我希望这篇文章能给你一些关于箱线图和柱状图的附加信息。

更多阅读建议:

  • 置信区间、计算和特征:https://towardsdatascience.com/confidence-interval-calculation-and-characteristics-1a60fd724e1d
  • 人口比例的置信区间和人口比例差异的计算:https://towardsdatascience.com/confidence-intervals-of-population-proportion-and-the-difference-in-python-6ab7faa0f255
  • 均值和均值差的置信区间计算:https://towardsdatascience.com/how-to-calculate-confidence-interval-of-mean-and-the-difference-of-mean-993bfec0c968

相关推荐

为3D手游打造, Visual Studio Unity扩展下载

IT之家(www.ithome.com):为3D手游打造,VisualStudioUnity扩展下载7月30日消息,微软正式发布升级版VisualStudioToolsforUnity扩...

由ArcMap属性字段自增引出字段计算器使用Python的技巧

1.前言前些日子有人问我ArcMap中要让某个字段的值实现自增有什么方法?我首先想到像SQLServer中对于数值型字段可以设置自增。所以我打开ArcCatalog查看发现只提供默认值,没办法只能看...

微软首次回答 HoloLens 相关问题,终于爆料了

fengo2015/04/2115:11注:本文作者张静是NVIDIAGPU架构师,微信公众号“黑客与画家”(HackerAndPainter),知乎专栏地址。欢迎各位童鞋与他交流探讨。...

C#指针的应用(c#指针类型)

C#在有限的范围内支持指针。C#的指针只不过是一个持有另一类型内存地址的变量。但是在C#中,指针只能被声明为持有值类型和数组的内存地址。与引用类型不同,指针类型不被默认的垃圾收集机制所跟踪。出于同...

C# 堆栈(Stack)(c# 堆栈中定位调用messagebox 的地方)

C#集合在C#中,堆栈(Stack)是一种后进先出(LIFO,LastInFirstOut)的数据结构。堆栈(Stack)适用于存储和按顺序处理数据,其中最新添加的元素会最先被移除。堆...

欢迎回来:Fortran意外重回流行编程语言20强榜单

TIOBE指数是用来确定一种编程语言受欢迎程度的指标之一。它并不表明哪种编程语言是最好的,也不表明哪种编程语言写的代码行数最多,而是利用在谷歌、维基百科、必应、亚马逊、YouTube等各种引擎和网站上...

C#+NET MAUI实现跨平台/终端(linux,win,ios等)解决方案

简介.NETMulti-platformAppUI(.NETMAUI)是一个跨平台的框架,用于使用C#和XAML创建移动和桌面应用程序。使用.NETMAUI,您可以用一套代码库开发可以在A...

C#代码安全红线:SQL注入防护终极方案,让你的系统固若金汤

在数字化时代,应用系统的安全性至关重要。而SQL注入攻击,长期盘踞在OWASP(OpenWebApplicationSecurityProject)漏洞榜单的前列,成为众多基于数据库的应用系统...

C# (一)状态机模式(状态机代码实现)

最近空闲,炒炒隔夜饭,以前这些模式在自己项目种应用过不少,但一直没有像别人那样写一个系列,最近年纪大了,很多东西都忘记了,特别AI的兴起,更少写代码了,反正没什么事情,自己在重写一遍吧。创建型模式(5...

C# 中 Predicate 详解(c#中的replace)

Predicate泛型委托:表示定义一组条件并确定指定对象是否符合这些条件的方法。此委托由Array和List类的几种方法使用,用于在集合中搜索元素。Predicate<T>...

C#中$的用法?(c#中&&什么意思)

文章来自AI问答。在C#中,$符号用于字符串插值(StringInterpolation)。字符串插值是C#6.0引入的一种特性,它允许你在字符串中直接嵌入表达式,而不需要使用string.For...

C#并行编程:Parallel类(c# 并行处理)

在Parallel类中提供了三个静态方法作为结构化并行的基本形式:Parallel.Invoke方法:并行执行一组委托。Parallel.For方法:执行与C#for循环等价的并行方法。Parall...

颠覆认知!用Span重构foreach循环竟让数据处理快如闪电

在C#编程的世界里,数据处理效率始终是开发者们关注的焦点。随着项目规模的扩大和数据量的激增,哪怕是细微的性能提升,都可能对整个应用的响应速度和用户体验产生深远影响。近年来,C#引入的Span<T...

Unity3D手游开发实践《腾讯桌球》客户端开发经验总结

本次分享总结,起源于腾讯桌球项目,但是不仅仅限于项目本身。虽然基于Unity3D,很多东西同样适用于Cocos。本文从以下10大点进行阐述:1.架构设计2.原生插件/平台交互3.版本与补丁4.用脚本,...

.NET 7 AOT 的使用以及 .NET 与 Go 互相调用

目录背景C#部分环境要求创建一个控制台项目体验AOT编译C#调用库函数减少体积C#导出函数C#调用C#生成的AOTGolang部分安装GCCGolang导出函数.NETC#...