4.distinct():返回唯一值,类似unique()
用法: distinct(.data, ...)
Examples
df <- data.frame( x = sample(10, 100, rep = TRUE), y = sample(10, 100, rep = TRUE) )
distinct(df, x) #x列的唯一值
distinct(df, y) #y列的唯一值
5.mulate()函数:在原始数据集的基础上扩展新变量,并保留已有的变量,类似transform()
用法: mutate(.data, ...) 参数: .data : 一个data frame …:要扩展的新列
Examples
mutate(mtcars, displ_l = disp / 61.0237) #mtcars数据新加入一列displ_l
mutate(mtcars, cyl = NULL) #删除cyl列
transmute():在原始数据集上扩展新变量,但删除已有的变量
用法: transmute(.data, ...)
Examples
transmute(mtcars, displ_l = disp / 61.0237) #mtcars数据现在只有一列displ_l
6.summarise()函数:总结多个操作到一个data.frame
用法: summarise(.data, ...) 参数: .data : 一个data frame …:多个操作(包括函数、表达式等)
Examples
summarise(mtcars, mean(disp)) ##disp列的均值
summarise(group_by(mtcars, cyl), m = mean(disp), sd = sd(disp))
前几期7个函数的共性
1、第一个参数都是一个data frame
2、后面的参数描述如何处理data frame,使用列不需要使用$
3、结果是一个新的data frame
这些简单的操作连接在一起可以完成复杂的操作
ps:以上7个函数是dplyr包的主要函数,再讲解dplyr包的group_by()小函数
&、group_by()函数:分组操作
用法: group_by(.data, ...)
Examples
by_cyl <- group_by(mtcars, cyl) #mtcars按cyl列分组