单变量分析
连续变量:
在连续变量的情况下,我们需要理解变量的集中趋势和分布。
首先获取数据 : a <- ggplot(mpg, aes(hwy))
1.频数面积图:
a+geom_area(stat="bin")
2.密度函数图:
a+geom_density(kernel="gaussian")
3.点状图:
a+geom_dotplot()
4.频数多边图
a+geom_freqpoly()
5.柱状图
a+geom_histogram(binwidth=5)
分类变量:
对于分类变量,我们使用频数来理解变量中每种类别的分布。
首先获取数据:b<-ggplot(mpg, aes(fl))
条形图:
b+geom_bar()
双变量分析
双变量分析能找出两个变量间的关系。在一个预先定义的显著水平下查看变量间是否是连续的。我们可以对分类变量和连续变量的任何组合进行双变量分析。
连续变量和连续变量
首先获取数据:f<-ggplot(mpg,aes(cty, hwy))
1.空图:
可以用来查看坐标轴范围
f+geom_blank()
2.随机扩散散点图:
避免大量数据点堆积
f+geom_jitter()
3.散点图:
f+geom_point()
4.分数位回归线:
f+geom_quantile()
5.xy轴投影
f+geom_rug(sides='bl')
6.线性模型拟合图
f+geom_smooth(method="lm")
7.类别变量图
f+geom_text(aes(label=cty))
分类变量和连续变量
首先获取数据:g<-ggplot(mpg, aes(class, hwy))
1.柱状图:
g+geom_bar(stat="identity")
2.箱线图:
g+geom_boxplot()
3.点状图:
g+geom_dotplot(binaxis="y", stackdir="center")
4.小提琴图:
g+geom_violin(scale="area")
分类变量和分类变量
首先获取数据:h<-ggplot(diamonds, aes(cut, color))
随机扩散散点图:
h+geom_jitter()