百度360必应搜狗淘宝本站头条
当前位置:网站首页 > 热门文章 > 正文

用R语言做数据分析——探索缺失值模式

bigegpt 2024-09-17 12:32 3 浏览

在决定如何处理缺失数据之前,了解哪些变量有缺失值、数目有多少、是什么组合形式等信息非常有用。这里我们将介绍探索缺失值模式的图标及相关方法。

列表显示缺失值

之前已经学习了一些识别缺失值的基本方法,如使用complete.cases()函数列出完整的实例,或者相反,列出含一个或多个缺失值的实例。但随着数据集的增大,这样的方法就逐渐丧失了吸引力。此时我们可以转向其他R函数。

mice包中的md.pattern()函数可以生成一个以矩阵或数据框形式展示缺失值模式的表格。将函数应用到sleep数据集,可得到:

表中1和0显示了缺失值模式,0表示变量的列中有缺失值,1则表示没有缺失值。第一行表述了“无缺失值”的模式(所有元素都为1)。第二行表述了“除Span之外无缺失值”的模式。第一列表示各缺失值模式的实例个数,最后一列白哦是各模式中有缺失值的变量的个数。此处可以看到,有42个实例没有缺失值,仅2个实例缺失了Span。9个实例同时缺失了NonD和Dream的值。数据集包含了总共(42*0)+(2*1)+...+(1*3)=38个缺失值。最后一行给出了每个变量中缺失值的数目。

图形探索缺失数据

虽然md.pattern()函数的表格输出非常简洁,但我们通常觉得用图形展示模式更为清晰。VIM包提供了大量能可视化数据集中缺失值模式的函数,例如:aggr()、matrixolot()和scattMiss()

aggr()函数不仅绘制每个变量的缺失值数,还绘制每个变量组合的缺失值数。例如:

> library("VIM")

> aggr(sleep, prop=FALSE, numbers=TRUE)

可以看到,变量NonD有最大的缺失值数(14),有2个哺乳动物缺失了NonD、Dream和Sleep的评分。42个动物没有缺失值。

代码aggr(sleep,prop=TRUE,numbers=TRUE)将生成相同的图形,但用比例代替了计算,选项numbers=FALSE(默认)删去了数值型标签。

matrixplot()函数可生成展示每个实例数据的图形:

> matrixplot(sleep)

此处,数值型数据被重新转换到[0,1]区间,并用灰度来表示大小:浅色表示值小,深色表示值大。默认缺失值为红色。注意,图中红色已经被手工阴影化处理,因此相对于灰色缺失值将非常显眼。我们可以自己创建图形,让它与众不同。

该图形可以进行交互,单击一列将会按其对应的变量重排矩阵。图中的行便按BodyWgt降序排列。通过矩阵图,我们可以看出某些变量的缺失值模式是否与其他变量的真实值有关联。此图中可以看到,无缺失值的睡眠变量(Dream、NonD和Sleep)对应着较小的体重(BodyWgt)或脑重(VrainWgt)。

marginplot()函数可以生成一幅散点图,在图形边界展示两个变量的缺失值信息。以做梦时长与哺乳动物妊娠期时长的关系为例,来看以下代码:

>marginplot(sleep[c("Gest","Dream")],pch = c(20),col = c("darkgray","red","blue"))

参数pch和col为可选项,控制着绘图符号和使用的颜色。

图形的主体是Gest和Dream(两变量数据都完整)的散点图。左边界的箱线图展示的是包含(深灰色)与不包含(红色)Gest值的Dream变量分布。注意,在灰度图上红色是更深的阴影。四个红点代表着缺失了Gest得分的Dream值。在底部边界,Gest和Dream间的关系反过来了。可以看到,妊娠期和做梦时长呈负相关,缺失妊娠期数据时动物的做梦时长一般更长。两个变量均有缺失值的观测个数在两边界交叉处(左下角)用蓝色输出。

VIM包有许多图形可以帮助我们理解缺失数据在数据集中的模式,包括散点图、箱线图、直方图、散点图矩阵、平行坐标图、轴须图和气泡图来展示缺失值的信息。

用相关性探索缺失值

我们可用指示变量替代数据集中的数据(1表示缺失,0表示存在),这样生成的矩阵有时被称作影子矩阵。求这些指示变量间和它们初始(可观测)变量间的相关性,有助于观察哪些变量常一起缺失,以及分析变量“缺失”与其他变量间的关系。

考虑如下代码:

> x <- as.data.frame(abs(is.na(sleep)))

若sleep的元素缺失,则数据框x对应的元素为1,否则为0.我们可以观察一下数据的前几行:

以下代码:

> sd=sapply(x,sd)

> y<-x[which(sd>0)]

可提取含(但不全部是)缺失值的变来那个,而

> cor(y)

可列出这些指示变量间的相关系数:

NonD Dream Sleep Span Gest

NonD 1.00000000 0.90711474 0.48626454 0.01519577 -0.14182716

Dream 0.90711474 1.00000000 0.20370138 0.03752394 -0.12865350

Sleep 0.48626454 0.20370138 1.00000000 -0.06896552 -0.06896552

Span 0.01519577 0.03752394 -0.06896552 1.00000000 0.19827586

Gest -0.14182716 -0.12865350 -0.06896552 0.19827586 1.00000000

此时,我们可以看到Dream和NonD常常一起缺失(r=0.91)。相对可能性较小的是Sleep和NonD一起缺失(r=0.49),以及Sleep和Dream(r=0.20)。

最后,我们可以看到含缺失值变量与其他可观测变量间的关系:

> cor(sleep,y,use = "pairwise.complete.obs")

NonD Dream Sleep Span Gest

BodyWgt 0.22682614 0.22259108 0.001684992 -0.05831706 -0.05396818

BrainWgt 0.17945923 0.16321105 0.007859438 -0.07921370 -0.07332961

NonD NA NA NA -0.04314514 -0.04553485

Dream -0.18895206 NA -0.188952059 0.11699247 0.22774685

Sleep -0.08023157 -0.08023157 NA 0.09638044 0.03976464

Span 0.08336361 0.05981377 0.005238852 NA -0.06527277

Gest 0.20239201 0.05140232 0.159701523 -0.17495305 NA

Pred 0.04758438 -0.06834378 0.202462711 0.02313860 -0.20101655

Exp 0.24546836 0.12740768 0.260772984 -0.19291879 -0.19291879

Danger 0.06528387 -0.06724755 0.208883617 -0.06666498 -0.20443928

Warning message:

In cor(sleep, y, use = "pairwise.complete.obs") : 标准差为零

在这个相关系数矩阵中,行代表可观测变量,列代表缺失的指示标量。从相关系数矩阵的第一列可以看到,体重越大(r=0.227)、妊娠期越长(r=0.202)、睡眠暴露度越大(r=0.245)的动物无梦睡眠的评分更可能缺失。其他列的信息也可以按照类似方式得出。注意,表中的相关系数并不特别大,表明数据是MCAR(完全随机缺失)的可能性比较小,更可能为MAR(随机缺失)。

不过也绝不能排除数据是NMAR(非随机缺失)的可能性,因为我们并不知道缺失数据背后对应的真实数据是怎么样的。当缺乏强力的外部证据时,我们通常假设数据时MCAR和MAR。

相关推荐

方差分析简介(方差分析通俗理解)

介绍方差分析(ANOVA,AnalysisofVariance)是一种广泛使用的统计方法,用于比较两个或多个组之间的均值。单因素方差分析是方差分析的一种变体,旨在检测三个或更多分类组的均值是否存在...

正如404页面所预示,猴子正成为断网元凶--吧嗒吧嗒真好吃

吧嗒吧嗒,绘图:MakiNaro你可以通过加热、冰冻、水淹、模塑、甚至压溃压力来使网络光缆硬化。但用猴子显然是不行的。光缆那新挤压成型的塑料外皮太尼玛诱人了,无法阻挡一场试吃盛宴的举行。印度政府正...

Python数据可视化:箱线图多种库画法

概念箱线图通过数据的四分位数来展示数据的分布情况。例如:数据的中心位置,数据间的离散程度,是否有异常值等。把数据从小到大进行排列并等分成四份,第一分位数(Q1),第二分位数(Q2)和第三分位数(Q3)...

多组独立(完全随机设计)样本秩和检验的SPSS操作教程及结果解读

作者/风仕在上一期,我们已经讲完了两组独立样本秩和检验的SPSS操作教程及结果解读,这期开始讲多组独立样本秩和检验,我们主要从多组独立样本秩和检验介绍、两组独立样本秩和检验使用条件及案例的SPSS操作...

方差分析 in R语言 and Excel(方差分析r语言例题)

今天来写一篇实际中比较实用的分析方法,方差分析。通过方差分析,我们可以确定组别之间的差异是否超出了由于随机因素引起的差异范围。方差分析分为单因素方差分析和多因素方差分析,这一篇先介绍一下单因素方差分析...

可视化:前端数据可视化插件大盘点 图表/图谱/地图/关系图

前端数据可视化插件大盘点图表/图谱/地图/关系图全有在大数据时代,很多时候我们需要在网页中显示数据统计报表,从而能很直观地了解数据的走向,开发人员很多时候需要使用图表来表现一些数据。随着Web技术的...

matplotlib 必知的 15 个图(matplotlib各种图)

施工专题,我已完成20篇,施工系列几乎覆盖Python完整技术栈,目标只总结实践中最实用的东西,直击问题本质,快速帮助读者们入门和进阶:1我的施工计划2数字专题3字符串专题4列表专题5流程控制专题6编...

R ggplot2常用图表绘制指南(ggplot2绘制折线图)

ggplot2是R语言中强大的数据可视化包,基于“图形语法”(GrammarofGraphics),通过分层方式构建图表。以下是常用图表命令的详细指南,涵盖基本语法、常见图表类型及示例,适合...

Python数据可视化:从Pandas基础到Seaborn高级应用

数据可视化是数据分析中不可或缺的一环,它能帮助我们直观理解数据模式和趋势。本文将全面介绍Python中最常用的三种可视化方法。Pandas内置绘图功能Pandas基于Matplotlib提供了简洁的绘...

Python 数据可视化常用命令备忘录

本文提供了一个全面的Python数据可视化备忘单,适用于探索性数据分析(EDA)。该备忘单涵盖了单变量分析、双变量分析、多变量分析、时间序列分析、文本数据分析、可视化定制以及保存与显示等内容。所...

统计图的种类(统计图的种类及特点图片)

统计图是利用几何图形或具体事物的形象和地图等形式来表现社会经济现象数量特征和数量关系的图形。以下是几种常见的统计图类型及其适用场景:1.条形图(BarChart)条形图是用矩形条的高度或长度来表示...

实测,大模型谁更懂数据可视化?(数据可视化和可视化分析的主要模型)

大家好,我是Ai学习的老章看论文时,经常看到漂亮的图表,很多不知道是用什么工具绘制的,或者很想复刻类似图表。实测,大模型LaTeX公式识别,出乎预料前文,我用Kimi、Qwen-3-235B...

通过AI提示词让Deepseek快速生成各种类型的图表制作

在数据分析和可视化领域,图表是传达信息的重要工具。然而,传统图表制作往往需要专业的软件和一定的技术知识。本文将介绍如何通过AI提示词,利用Deepseek快速生成各种类型的图表,包括柱状图、折线图、饼...

数据可视化:解析箱线图(box plot)

箱线图/盒须图(boxplot)是数据分布的图形表示,由五个摘要组成:最小值、第一四分位数(25th百分位数)、中位数、第三四分位数(75th百分位数)和最大值。箱子代表四分位距(IQR)。IQR是...

[seaborn] seaborn学习笔记1-箱形图Boxplot

1箱形图Boxplot(代码下载)Boxplot可能是最常见的图形类型之一。它能够很好表示数据中的分布规律。箱型图方框的末尾显示了上下四分位数。极线显示最高和最低值,不包括异常值。seaborn中...