分析学优势:R语言基础 基于r语言的dea分析
bigegpt 2024-10-12 06:42 3 浏览
各位想学习R语言、机器学习、深度学习的朋友,想寻求相关方面资料的朋友,可以向我咨询。请文末留言。
R语言:免费、开源、使用广泛、简单易用、可视化效果好。
在美国以外的地区,使用R语言先运行Sys.setlocale("LC_ALL","C")语句,避免出现某些格式问题。
ls():查看当前面板变量名。
names(读取文件的存储名),如poll=read.csv("polling.csv"), names(poll)
rm(变量名1,变量名2,……):移除变量1,变量2……
?函数名:查看函数的帮助的页面,如?sqrt
getwd():获取当前工作路径。
setwd(绝对路径):设置工作路径。
写.csv格式的文件:write.csv(目标变量,预保持的文件名.csv)
安装包:install.packages(包名),如install.packages("caTools")
使用包:library(包名),如library(caTools)
R语言中常见的几个基本函数:(以polling.csv文件为例)
poll=read.csv("polling.csv")
str(poll):查看poll数据框的变量名,变量名类型,对象个数,变量个数。
summary(poll):查看poll数据框各变量的统计学量,sd(poll$age),age变量的方差。
重要:若数据有缺失值,用mean,sum,sd函数计算时要添加na.rm=TRUE,如mean(poll$ages,na.rm=TURE)。
mean(TRUE):1
mean(FALSE):0,若传入mean()函数的为TRUE,TRUE,FALSE,则输出为0.6666667,即计算TRUE的频率。
which.max():求最大值的下标;which.min()求最小值的小标。
subset(poll,age>60):提取poll数据框的子集,满足age>60的对象。
table(poll$Regions,na.rm=TRUE):统计poll变量各Region出现的频数。
table(poll$Sex, poll$Region):显示结果为矩阵形式,行代表poll$Sex,列代表poll$Region。
tapply(limited$Info.On.Internet, limited$Smartphone, summary,na.rm=TRUE):第三个参数(summary,mean,sum……)作用于第一个参数,以第二个参数分类;表示以不同的limited$Smartphone分类,计算summary(limited$Info.On.Internet)。
sort(tapply(is.na(CPS$MetroAreaCode), CPS$State, mean)):对tapply()的结果排序,相当于对CPS数据集的不同State变量,求MetroAreaCode为TRUE的平均值。
例sort(tapply(CPS$Country == "India", CPS$MetroArea, sum, na.rm=TRUE))
is.na(CPS$MetroAreaCode):在CPS$MetroAreaCode的缺失值处,返回TRUE,无缺失值返回FALSE。
重要:若数据有缺失值,用mean,sum,sd……函数计算时要添加na.rm=TRUE,如mean(poll$ages,na.rm=TURE)。
比较大小符号的使用情况:如poll$age>60,则返回值为TRUE与FALSE。as.numeric(poll$age>60)将TRUE与FALSE转换成1和0;常与mean()函数使用,如mean(poll$age>60)。
常见画图函数:
plot(X,Y,xlab=,ylab=,main=,col=,ylim=c(0,210)):横轴X,纵轴Y,col图像颜色,ylim为y轴范围,c(0,210)为vector;vector创建的方法为c("China","USA")。
如plot(CocaCola$Date[301:432], CocaCola$StockPrice[301:432], type="l", col="red", ylim=c(0,210))
lines(X,Y,col=):在上图的基础上新增其它数据的图。
如lines(ProcterGamble$Date, ProcterGamble$StockPrice, col="blue")
abline(v=as.Date(c("2000-03-01")), lwd=2) :在X为“2000-03-01"处添加垂直线,查看相应位置线的位置。
plot(CocaCola$Date[301:432], CocaCola$StockPrice[301:432],xlab = "Date",ylab = "StockPrice",type="l",main = "StockPrice VS date of Five Countires", col="red", ylim=c(0,210))
lines(ProcterGamble$Date[301:432], ProcterGamble$StockPrice[301:432], col="blue")
lines(IBM$Date[301:432], IBM$StockPrice[301:432], col="green")
lines(GE$Date[301:432], GE$StockPrice[301:432], col="purple")
lines(Boeing$Date[301:432], Boeing$StockPrice[301:432], col="orange")
abline(v=as.Date(c("2000-03-01")), lwd=2)
股价随时间的变化图
hist(CocaCola$Date[301:432],xlab=,main=,xlim=c(0,100),breaks=200):直方图,有利于理解数据的分布,"CocaCola$Date[301:432]"欲画图的数据,breaks矩形的个数,每个矩形的宽度=总宽度/breaks。
hist(poll$Age,xlab = "Age",ylab = "Frequency",main = "Histogram of Age",xlim = c(0,150),breaks = 10)
年龄直方图
boxplot(USDA$Sugar, ylab = "Sugar (g)", main = "Boxplot of Sugar"):盒图。
boxplot(Y~X):Y为纵轴,X为横轴。
boxplot(WHO$CellularSubscribers~WHO$Region,xlab="Region",ylab="Life Expectancy",main="Life Expectancy of Countries by Region")
LifeExpectancy和Region盒图
创建vector:A=c(2,3,4,5),A的下标从[1]开始,可认为创建的为列vector。
seq(0,100,2)序列:0,2,4,6,……,100。
创建dataframe:data.frame(vector1,vector2,……)。
合并两个dataframe:rbind(dataframe1,dataframe2)。
Country = c("Brazil", "China", "India","Switzerland","USA")
LifeExpectancy = c(74,76,65,83,79)
dataframe1 = data.frame(Country, LifeExpectancy)
dataframe1$Population = c(199000,1390000,1240000,7997,318000)
dataframe以Country,LifeExpectancy,Population为变量,在数据框的第一行,可使用生成.csv文件的如下命令write.csv(dataframe3,"dataframe3.csv")查看。
##
Country = c("Australia","Greece")
LifeExpectancy = c(82,81)
Population = c(23050,11125)
dataframe2 = data.frame(Country, LifeExpectancy, Population)
##
dataframe3=rbind(dataframe1,dataframe2)
查看dataframe3中的变量,先读取文件df=read.csv(""dataframe3.csv""),再df["Country"],若df$Country则显示比较麻烦。
将两个数据框中的变量进行匹配:CPS = merge(CPS, MetroAreaMap, by.x="MetroAreaCode", by.y="Code", all.x=TRUE):其中MetroAreaCode来自于数据框CPS,Code来自于数据框MetroAreaMap,根据相应对象进行匹配;all.x=TRUE表示对CPS中相应的每一行都进行匹配。
将数据集中日期格式转换成R中的日期格式:
as.Date(strptime(日期变量,日期变量的格式))
如DateConvert = as.Date(strptime(mvt$Date, "%m/%d/%y %H:%M"));DateConvert[1]显示第一个时间。
或IBM$Date = as.Date(IBM$Date, "%m/%d/%y")
提取月份和周再为mvt新增两个变量:mvt$Month = months(DateConvert);mvt$Weekday = weekdays(DateConvert)。
相关推荐
- Linux gron 命令使用详解(linux gminer)
-
简介gron是一个独特的命令行工具,用于将JSON数据转换为离散的、易于grep处理的赋值语句格式。它的名字来源于"grepableon"或"grepable...
- 【Linux】——从0到1的学习,让你熟练掌握,带你玩转Linu
-
学习Linux并掌握Java环境配置及SpringBoot项目部署是一个系统化的过程,以下是从零开始的详细指南,帮助你逐步掌握这些技能。一、Linux基础入门1.安装Linux系统选择发行版:推荐...
- Linux常用的shell命令汇总(linux中shell的作用)
-
本文介绍Linux系统下常用的系统级命令,包括软硬件查看、修改命令,有CPU、内存、硬盘、网络、系统管理等命令。说明命令是在Centos6.464位的虚拟机系统进行测试的。本文介绍的命令都会在此C...
- 零成本搭建个人加密文件保险柜(适用于 Win11 和 Linux)
-
不依赖收费软件操作简单,小白也能跟着做支持双系统,跨平台使用实现数据加密、防删除、防泄露内容通俗无技术门槛,秒懂秒用使用工具简介我们将使用两个核心工具:工具名用途系统支持Veracrypt创建加密虚...
- 如何在 Linux 中使用 Gzip 命令?(linux怎么用gzip命令)
-
gzip(GNUzip)是Linux系统中一个开源的压缩工具,用于压缩和解压缩文件。它基于DEFLATE算法,广泛应用于文件压缩、备份和数据传输。gzip生成的文件通常带有.gz后缀,压缩效率...
- Linux 必备的20个核心知识点(linux内核知识点)
-
学习和使用Linux所必备的20个核心知识点。这些知识点涵盖了从基础操作到系统管理和网络概念,是构建扎实Linux技能的基础。Linux必备的20个知识点1.Linux文件系统层级标...
- 谷歌 ChromeOS 已支持 7z、iso、tar 文件格式
-
IT之家6月21日消息,谷歌ChromeOS在管理文件方面进行了改进,新增了对7z、iso和tar等格式的支持。从5月的ChromeOS101更新开始,ChromeOS...
- 如何在 Linux 中提取 Tar Bz2 文件?
-
在深入解压方法之前,我们先来了解.tar.bz2文件的本质。.tar.bz2是一种组合文件格式,包含两个步骤:Tar(TapeArchive):tar是一种归档工具,用于将多个文件或目录打包...
- 如何在 CentOS 7/8 上安装 Kitematic Docker 管理器
-
Kitematic是一款流行的Docker图形界面管理平台,适用于Ubuntu、macOS和Windows操作系统。然而,其他发行版(如CentOS、OpenSUSE、Fedora、R...
- Nacos3.0重磅来袭!全面拥抱AI,单机及集群模式安装详细教程!
-
之前和大家分享过JDK17的多版本管理及详细安装过程,然后在项目升级完jdk17后又发现之前的注册和配置中心nacos又用不了,原因是之前的nacos1.3版本的,版本太老了,已经无法适配当前新的JD...
- 爬虫搞崩网站后,程序员自制“Zip炸弹”反击,6刀服务器成功扛住4.6万请求
-
在这个爬虫横行的时代,越来越多开发者深受其害:有人怒斥OpenAI的爬虫疯狂“偷”数据,7人团队十年心血的网站一夜崩溃;也有人被爬虫逼到极限,最后只好封掉整个巴西的访问才勉强止血。但本文作者却走...
- Ubuntu 操作系统常用命令详解(ubuntu必学的60个命令)
-
UbuntuLinux是一款流行的开源操作系统,广泛应用于服务器、开发、学习等场景。命令行是Ubuntu的灵魂,也是高效、稳定管理系统的利器。本文按照各大常用领域,详细总结Ubuntu必学...
- Linux面板8.0.54 测试版-已上线(linux主机面板)
-
Linux面板8.0.54测试版【增加】[网站]Java项目新增刷新列表按钮【增加】[网站]PHP项目-Apache-服务新增守护进程功能【增加】[网站]Python项目创建/删除网站时新增同时创建...
- 开源三剑客——构建私有云世界的基石
-
公共云原生的浪潮正在席卷这个世界,亚马逊AWS、谷歌GCP和微软的Azure年收入增长超过了30%,越来越多的公司和个人开始将自己的服务部署到云环境中,大型数据中心的规模经济带来了成本的降低,可以在保...
- 2.2k star,一款业界领先的私有云+在线文档管理系统
-
简介kodbox可道云(原KodExplorer)是业内领先的企业私有云和在线文档管理系统,为个人网站、企业私有云部署、网络存储、在线文档管理、在线办公等提供安全可控,简便易用、可高度定制的私有云产品...
- 一周热门
- 最近发表
-
- Linux gron 命令使用详解(linux gminer)
- 【Linux】——从0到1的学习,让你熟练掌握,带你玩转Linu
- Linux常用的shell命令汇总(linux中shell的作用)
- 零成本搭建个人加密文件保险柜(适用于 Win11 和 Linux)
- 如何在 Linux 中使用 Gzip 命令?(linux怎么用gzip命令)
- Linux 必备的20个核心知识点(linux内核知识点)
- 谷歌 ChromeOS 已支持 7z、iso、tar 文件格式
- 如何在 Linux 中提取 Tar Bz2 文件?
- 如何在 CentOS 7/8 上安装 Kitematic Docker 管理器
- Nacos3.0重磅来袭!全面拥抱AI,单机及集群模式安装详细教程!
- 标签列表
-
- mybatiscollection (79)
- mqtt服务器 (88)
- keyerror (78)
- c#map (65)
- xftp6 (83)
- bt搜索 (75)
- c#var (76)
- xcode-select (66)
- mysql授权 (74)
- 下载测试 (70)
- linuxlink (65)
- pythonwget (67)
- androidinclude (65)
- libcrypto.so (74)
- linux安装minio (74)
- ubuntuunzip (67)
- logstashinput (65)
- hadoop端口 (65)
- vue阻止冒泡 (67)
- jquery跨域 (68)
- php写入文件 (73)
- kafkatools (66)
- mysql导出数据库 (66)
- jquery鼠标移入移出 (71)
- 取小数点后两位的函数 (73)