百度360必应搜狗淘宝本站头条
当前位置:网站首页 > 热门文章 > 正文

从零开始学R数据分析,数据筛选与提取

bigegpt 2024-10-12 06:42 3 浏览

通常从系统中导出的数据字段有很多,并不是所有的字段都能用于数据分析中,这时候为了提高运算的速度,以及节省运算内存,需要筛选一些我们数据分析实际使用到的数据字段,通常筛选出数据字段后还需要做聚合运算,例如EXCEL中countif,sumif的用法,那么这些方法如何在R中使用呢?下面一起来学习。

示例工具:R x64 3.5.3、RStudio

本文讲解内容:数据筛选与提取

适用范围:数据筛选、多条件计数、多条件求和

本次内容的学习需要先创建一组数据集,数据内容包含"ID"、"NAME"等五个字段,数据结果如下。

#手动创建数据表data
data<-data.frame(ID=c("c001","c002","c003","c004","c005","c006","c007","c008","c009","c010"),
                 NAME=c("Rmesh","Khilan","Kaushik","Chaitali","Hardik","Komal","Tom","Muffy","Susan","Kevin"),
                 AGE=c(23,20,23,25,27,24,26,31,26,30),
                 ADDRESS=c("Ahmed","Delhi","Kota","Mumbai","Bhopal","MP-A","MP-B","Indore","JP-No.1","JP-No.2"),
                 SAL=c(2000,1500,2000,5000,8500,6500,5500,9500,7000,9000))

1 数据筛选

在R中数据筛选使用subset函数进行筛选,在subset函数的参数中添加逻辑运算和筛选条件,例如筛选条件等于、不等于、大于、小于,逻辑运算与、或、非的条件,这里用双等于号表示等于,如筛选名字中为Kevin的行,筛选结果如下所示:

#数据筛选
subset(data,data$NAME=="Kevin")

筛选名字中不包含Kevin的行,不等于号用"!="表示,筛选结果如下所示:

#按非条件进行筛选
subset(data,data$NAME!="Kevin")

subset函数可以添加多个条件,使用与的条件时用"&"符号连接起来,这里筛选年龄大于25且收入大于8000的行记录,结果如下:

#按与的条件筛选
subset(data,data$AGE>25 & data$SAL>8000)

如果是或的条件,用"|"符号表示,筛选年龄大于25岁或者收入大于8000的行记录,筛选结果如下所示:

#按或的条件筛选
subset(data,data$AGE>25 | data$SAL>8000)

2 数据提取

数据提取一般有三种方法进行提取,即按位置提取、按索引提取和按条件提取,在pandas中类似于loc和iloc的用法,可以按照位置、按照列索引以及添加筛选条件进行数据提取。

按位置提取数据使用中括号[ ],在中括号中逗号前提取的是行,逗号后提取的是列,要提取第一行数据结果如下:

#提取数据表第一行
data[1,]

要提取第一行到第五行的数据,在中括号中提取行1:5,逗号后面提取列可以不写,默认即可。

#提取数据表第一行至第五行
data[1:5,]

提取数据表中第五列数据,省略逗号前行提取,直接写逗号后的列值即可。

#提取数据表第五列
data[5]

提取第三列到第五列,逗号前的行提取默认不写,在逗号后的列提取第三列到第五列即可,提取结果如下:

#提取数据表第三列至第五列
data[,3:5]

如果同时提取行和列,比如提取第三行第五列的数据,可以在逗号的前面和后面分别写上行数和列数。

#提取数据表第三行第五列
data[3,5]

提取特定的数据区域,可以使用":"冒号来提取,行和列的位置不变,只需要改变数据区域的大小即可。

#提取数据表特定区域数据
data[1:3,1:3]

按索引提取数据,这里分为按照行索引提取和列索引提取,需要提取的行索引和列索引用引号括起来 ,如下提取第三行的数据。

#按索引提取行数据
data['3',]

如果按照索引提取多行,需要用括号括起来,在中括号中逗号前的位置用于提取行,逗号后的位置用于提取列,与按位置提取数据方法一致。

#按索引提取多行数据
data[c('3','5'),]

按照列名提取数据,需要将列名用括号括起来即可。

#按列名称提取
data['NAME']

需要提取特定行和特定列的数据,中括号中写上行索引和列索引即可。

#按索引提取行与列数据
data['4','NAME']

提取多个行与多个列数据,需要用括号将行索引和列索引括起来。

#按索引提取多个行与列数据
data[c('2','4'),c('NAME','SAL')]

除了按位置和按索引提取数据,还有一种方法是按条件提取数据,使用which函数,后面加特定的聚合条件,比如这里提取薪水最高的行记录。

#查找薪水最高的所在行
data[which.max(data$SAL),]

同理,提取薪水最低的行记录。

#查看年龄最小的所在行
data[which.min(data$AGE),]

3 聚合运算

筛选数据以及提取特定数据区域后,可以对这部分数据做聚合运算,与Excel中的筛选功能和countif和sumif功能相似,而countifs和sumifs是多条件计数和多条件求和。

对年龄大于25岁以及收入大于8000的薪水多条件求和,使用subset函数数据筛选后,借助sum函数实现多条件求和的功能。

#Excel中的sumifs()函数求和
sum(subset(data,data$AGE>25 | data$SAL>8000)$SAL)

多条件计数使用length函数计数。

#Excel中的countifs()函数计数
length(subset(data,data$AGE>25 | data$SAL>8000)$ID)

多条件求平均这里使用mean函数,求年龄大于25岁或者收入大于8000的平均薪水,数据结果如下所示。

#Excel中的averageifs()函数计数
mean(subset(data,data$AGE>25 | data$SAL>8000)$SAL)

相关推荐

Linux gron 命令使用详解(linux gminer)

简介gron是一个独特的命令行工具,用于将JSON数据转换为离散的、易于grep处理的赋值语句格式。它的名字来源于"grepableon"或"grepable...

【Linux】——从0到1的学习,让你熟练掌握,带你玩转Linu

学习Linux并掌握Java环境配置及SpringBoot项目部署是一个系统化的过程,以下是从零开始的详细指南,帮助你逐步掌握这些技能。一、Linux基础入门1.安装Linux系统选择发行版:推荐...

Linux常用的shell命令汇总(linux中shell的作用)

本文介绍Linux系统下常用的系统级命令,包括软硬件查看、修改命令,有CPU、内存、硬盘、网络、系统管理等命令。说明命令是在Centos6.464位的虚拟机系统进行测试的。本文介绍的命令都会在此C...

零成本搭建个人加密文件保险柜(适用于 Win11 和 Linux)

不依赖收费软件操作简单,小白也能跟着做支持双系统,跨平台使用实现数据加密、防删除、防泄露内容通俗无技术门槛,秒懂秒用使用工具简介我们将使用两个核心工具:工具名用途系统支持Veracrypt创建加密虚...

如何在 Linux 中使用 Gzip 命令?(linux怎么用gzip命令)

gzip(GNUzip)是Linux系统中一个开源的压缩工具,用于压缩和解压缩文件。它基于DEFLATE算法,广泛应用于文件压缩、备份和数据传输。gzip生成的文件通常带有.gz后缀,压缩效率...

Linux 必备的20个核心知识点(linux内核知识点)

学习和使用Linux所必备的20个核心知识点。这些知识点涵盖了从基础操作到系统管理和网络概念,是构建扎实Linux技能的基础。Linux必备的20个知识点1.Linux文件系统层级标...

谷歌 ChromeOS 已支持 7z、iso、tar 文件格式

IT之家6月21日消息,谷歌ChromeOS在管理文件方面进行了改进,新增了对7z、iso和tar等格式的支持。从5月的ChromeOS101更新开始,ChromeOS...

如何在 Linux 中提取 Tar Bz2 文件?

在深入解压方法之前,我们先来了解.tar.bz2文件的本质。.tar.bz2是一种组合文件格式,包含两个步骤:Tar(TapeArchive):tar是一种归档工具,用于将多个文件或目录打包...

如何在 CentOS 7/8 上安装 Kitematic Docker 管理器

Kitematic是一款流行的Docker图形界面管理平台,适用于Ubuntu、macOS和Windows操作系统。然而,其他发行版(如CentOS、OpenSUSE、Fedora、R...

Nacos3.0重磅来袭!全面拥抱AI,单机及集群模式安装详细教程!

之前和大家分享过JDK17的多版本管理及详细安装过程,然后在项目升级完jdk17后又发现之前的注册和配置中心nacos又用不了,原因是之前的nacos1.3版本的,版本太老了,已经无法适配当前新的JD...

爬虫搞崩网站后,程序员自制“Zip炸弹”反击,6刀服务器成功扛住4.6万请求

在这个爬虫横行的时代,越来越多开发者深受其害:有人怒斥OpenAI的爬虫疯狂“偷”数据,7人团队十年心血的网站一夜崩溃;也有人被爬虫逼到极限,最后只好封掉整个巴西的访问才勉强止血。但本文作者却走...

Ubuntu 操作系统常用命令详解(ubuntu必学的60个命令)

UbuntuLinux是一款流行的开源操作系统,广泛应用于服务器、开发、学习等场景。命令行是Ubuntu的灵魂,也是高效、稳定管理系统的利器。本文按照各大常用领域,详细总结Ubuntu必学...

Linux面板8.0.54 测试版-已上线(linux主机面板)

Linux面板8.0.54测试版【增加】[网站]Java项目新增刷新列表按钮【增加】[网站]PHP项目-Apache-服务新增守护进程功能【增加】[网站]Python项目创建/删除网站时新增同时创建...

开源三剑客——构建私有云世界的基石

公共云原生的浪潮正在席卷这个世界,亚马逊AWS、谷歌GCP和微软的Azure年收入增长超过了30%,越来越多的公司和个人开始将自己的服务部署到云环境中,大型数据中心的规模经济带来了成本的降低,可以在保...

2.2k star,一款业界领先的私有云+在线文档管理系统

简介kodbox可道云(原KodExplorer)是业内领先的企业私有云和在线文档管理系统,为个人网站、企业私有云部署、网络存储、在线文档管理、在线办公等提供安全可控,简便易用、可高度定制的私有云产品...