百度360必应搜狗淘宝本站头条
当前位置:网站首页 > 热门文章 > 正文

巧用dplyr和caret-三十分钟学会用R语言进行数据分析

bigegpt 2024-08-16 14:15 2 浏览

数据分析分为数据处理,数据探索和数据建模,其中数据处理和数据探索往往能占整体工作的70%以上。这里主要讲如何利用dplyr包对数据进行操作以及如何利用caret包对数据建模。

这里我们采用真实的数据集(analytics vidhya竞赛练习load predicion中的数据):

load<-read.csv('https://datahack-prod.s3.ap

-south-1.amazonaws.com/

train_file/train_u6lujuX_CVtuz9i.csv')

数据处理篇-dplyr包:

dplyr能非常方便的对数据进行操纵,相似功能的包还有data.table或两者的合集dtplyr,可以在R中用??dtplyr查看。

library(dplyr)

dim(load)

[1]61413

str(load)


dplyr中的数据筛选函数:filter和select:

例如我想选择以下变量并另存一张表并标记位用户属性信息:

user <- select(load, Loan_ID,Gender,Married,

Dependents,Education,

Self_Employed,Property_Area)

同时在select中可以利用-(Gender,Married)来选择去除变量Gender,Married的数据。

如果我还想查看Gender为Male,以及Married为No的用户:

user_gender_married <- filter(user,

Gender == 'Male',

Married == 'No')

同时在filter中可以利用|来表示或,例如filter(user, Dependents == 0 | Dependents == 1)选择Dependents是0或是1的数据。


dplyr中的数据排序函数:arrange():

例如可以对load进行按照先ApplicantIncome升序,再CoapplicantIncome升序,

最后Loan_Amount_Term降序的次序排序:

load <- arrange(load, ApplicantIncome,

CoapplicantIncome,

desc(Loan_Amount_Term))

注意desc()表示降序。


dplyr中的数据添加函数:mutate():

其中mutate()会保留所有变量, transmute()只保留添加变量。

例如我想添加以下变量:

app_cpp=ApplicantIncome-CoapplicantIncome;

app_cpp_term=app_cpp/ Loan_Amount_Term;

load_app <- mutate(load,

app_cpp = ApplicantIncome-CoapplicantIncome,

app_cpp_term = app_cpp/ Loan_Amount_Term)

可以看到后面多出两个变量。如果用transmute(),load_app就会只有app_cpp和app_cpp_term两个变量。


dplyr中的数据去重函数: distinct():

类似uniqe()函数,但distinct()速度会更快。

例如我想看看Dependents变量或是Dependents和Married变量去重后的结果:

distinct(load, Dependents)

distinct(load, Dependents, Married)


dplyr中的数据分组和汇总函数: group_by()和summaris():

summaris()函数可以单独应用,例如求某列的均值:

summarise(load, mean_cpp = mean(CoapplicantIncome, na.rm = TRUE))

注:na.rm = TRUE表示去除缺失值。

通常summarise和group_by都是一起用的,类似于excel的数据透视表:

例如计算Gender变量不同种类的数目及不同种类下CoapplicantIncome的平均值:

load_gr <- group_by(load, Gender)

summarise(load_gr, count=n(),

gender_mean_cpp=mean(CoapplicantIncome, na.rm = TRUE))


数据建模篇-caret包

caret包能对数据进行预处理包括特征筛选和缺失值填充等,另外还能进行交叉验证和各种模型的grid调参。

library(caret)

查看并处理缺失值:

sum(is.na(load))

[1]86

colSums(is.na(load))

发现有缺省值我们可以用preProcess对缺失值进行填充,其实在处理缺失值之前应该首先弄清楚缺失值的属性即如何产生的,然后再根据缺失值属性对缺失值进行相应的处理,这里只是展示如何用preProcess函数处理缺失值。

preProcValues <- preProcess(load, method = c("knnImpute","center","scale"))

注意这里对数据进行了归一化处理,并采用knn模型进行填充。

library('RANN')

load_processed <- predict(preProcValues, load)

sum(is.na(load_processed))

[1]0


去除Loan_ID,并将Loan_Status改为0和1:

load_processed$Loan_Status<-ifelse(load_processed$Loan_Status=='N',0,1)

id<-load_processed$Loan_ID

load_processed$Loan_ID<-NULL


利用dummyVars对分类变量进行数值化处理,即将每一个类别做一个变量并用0或1表示其是否存在:

dmy <- dummyVars(" ~ .", data = load_processed,fullRank = T)

load_transformed <- data.frame(predict(dmy, newdata = load_processed))

注:" ~ ."表示对所有分类变量进行数值化处理。


利用createDataPartition将数据集按比例分成测试集和训练集:

index <- createDataPartition(load_transformed$Loan_Status, p=0.75, list=FALSE)

train <- load_transformed[ index, ]

test <- load_transformed[-index, ]


设置交叉验证参数:

fitControl <- trainControl(method = "repeatedcv", number = 5, repeats = 5)


设置grid调参参数范围:

这里采用gbm方法。

grid<- expand.grid(n.trees=c(10,20,50,100,500,1000),

shrinkage=c(0.01,0.05,0.1,0.5),

n.minobsinnode = c(3,5,10),

interaction.depth=c(1,5,10))


利用train函数训练模型:

train[,19] <- as.factor(train[,19])

model_gbm<-train(train[,1:18],train[,19],

method='gbm',

trControl=fitControl,

tuneGrid=grid)

可以根据实际需求在train的method中更改模型,例如将gbm改为rf即为随机森林模型,但不要忘了更改前面grid的模型参数类型及范围。


查看模型参数:

model_gbm

这里只截取了一部分。


查看模型各参数变化图:

plot(model_gbm)


查看变量重要性:

varImp(object=model_gbm)


将模型应用于测试集:

predictions<-predict(model_gbm,test[,18])

table(predictions)


查看混淆矩阵:

confusionMatrix(predictions, test[,19])


最后根据混淆矩阵的反馈调整模型,选取最优模型。

相关推荐

了解Linux目录,那你就了解了一半的Linux系统

大到公司或者社群再小到个人要利用Linux来开发产品的人实在是多如牛毛,每个人都用自己的标准来配置文件或者设置目录,那么未来的Linux则就是一团乱麻,也对管理造成许多麻烦。后来,就有所谓的FHS(F...

Linux命令,这些操作要注意!(linux命令?)

刚玩Linux的人总觉得自己在演黑客电影,直到手滑输错命令把公司服务器删库,这才发现命令行根本不是随便乱用的,而是“生死簿”。今天直接上干货,告诉你哪些命令用好了封神!喜欢的一键三连,谢谢观众老爷!!...

Linux 命令速查手册:这 30 个高频指令,拯救 90% 的运维小白!

在Linux系统的世界里,命令行是强大的武器。对于运维小白而言,掌握一些高频使用的Linux命令,能极大提升工作效率,轻松应对各种系统管理任务。今天,就为大家奉上精心整理的30个Linu...

linux必学的60个命令(linux必学的20个命令)

以下是Linux必学的20个基础命令:1.cd:切换目录2.ls:列出文件和目录3.mkdir:创建目录4.rm:删除文件或目录5.cp:复制文件或目录6.mv:移动/重命名文件或目录7....

提高工作效率的--Linux常用命令,能够决解95%以上的问题

点击上方关注,第一时间接受干货转发,点赞,收藏,不如一次关注评论区第一条注意查看回复:Linux命令获取linux常用命令大全pdf+Linux命令行大全pdf为什么要学习Linux命令?1、因为Li...

15 个实用 Linux 命令(linux命令用法及举例)

Linux命令行是系统管理员、开发者和技术爱好者的强大工具。掌握实用命令不仅能提高效率,还能解锁Linux系统的无限潜力,本文将深入介绍15个实用Linux命令。ls-列出目录内容l...

Linux 常用命令集合(linux常用命令全集)

系统信息arch显示机器的处理器架构(1)uname-m显示机器的处理器架构(2)uname-r显示正在使用的内核版本dmidecode-q显示硬件系统部件-(SMBIOS/DM...

Linux的常用命令就是记不住,怎么办?

1.帮助命令1.1help命令#语法格式:命令--help#作用:查看某个命令的帮助信息#示例:#ls--help查看ls命令的帮助信息#netst...

Linux常用文件操作命令(linux常用文件操作命令有哪些)

ls命令在Linux维护工作中,经常使用ls这个命令,这是最基本的命令,来写几条常用的ls命令。先来查看一下使用的ls版本#ls--versionls(GNUcoreutils)8.4...

Linux 常用命令(linux常用命令)

日志排查类操作命令查看日志cat/var/log/messages、tail-fxxx.log搜索关键词grep"error"xxx.log多条件过滤`grep-E&#...

简单粗暴收藏版:Linux常用命令大汇总

号主:老杨丨11年资深网络工程师,更多网工提升干货,请关注公众号:网络工程师俱乐部下午好,我的网工朋友在Linux系统中,命令行界面(CLI)是管理员和开发人员最常用的工具之一。通过命令行,用户可...

「Linux」linux常用基本命令(linux常用基本命令和用法)

Linux中许多常用命令是必须掌握的,这里将我学linux入门时学的一些常用的基本命令分享给大家一下,希望可以帮助你们。总结送免费学习资料(包含视频、技术学习路线图谱、文档等)1、显示日期的指令:d...

Linux的常用命令就是记不住,怎么办?于是推出了这套教程

1.帮助命令1.1help命令#语法格式:命令--help#作用:查看某个命令的帮助信息#示例:#ls--help查看ls命令的帮助信息#netst...

Linux的30个常用命令汇总,运维大神必掌握技能!

以下是Linux系统中最常用的30个命令,精简版覆盖日常操作核心需求,适合快速掌握:一、文件/目录操作1.`ls`-列出目录内容`ls-l`(详细信息)|`ls-a`(显示隐藏文件)...

Linux/Unix 系统中非常常用的命令

Linux/Unix系统中非常常用的命令,它们是进行文件操作、文本处理、权限管理等任务的基础。下面是对这些命令的简要说明:**文件操作类:*****`ls`(list):**列出目录内容,显...