R统计分析基本方法汇总统计分析常用术语

bigegpt 2024-10-30 01:48 11 浏览

均数与标准差

data <- data.frame(
  考生号 = c(1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20),
  分数 = c(456, 594, 611, 336, 298, 394, 464, 336, 513, 553, 541, 478, 306, 516, 456, 452, 431, 531, 435, 552)
)
mean_score <- mean(data$分数)
sd_score <- sd(data$分数)

cat("均值:", mean_score, "\n")
cat("标准差:", sd_score, "\n")
均值: 462.65 
标准差: 92.40829

统计描述

data <- data.frame(
  `编号` = c(1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12),
  `身高` = c(125.2, 135.3, 122.9, 131.6, 121.1, 141.5, 132.1, 112.8, 104.6, 131.2, 125.9, 126.1)
)
statistics <- summary(dataR统计分析基本方法汇总-今日头条身高`)
print(statistics)
Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
  104.6   122.5   126.0   125.9   131.7   141.5

总体均数估计

# 样本均数
mean_x <- 3.55
# 样本标准差
sd_x <- 1.03
# 总体均数的估计值等于样本均数
estimate <- mean_x
cat("总体均数的估计值为：", estimate)
总体均数的估计值为： 3.55

总体率估计

# 活产新生儿总数
n <- 3009
# 诊断出畸形的新生儿数
k <- 29
# 畸形率
p <- 0.96 / 100
# 计算P(X>=k)的值
prob <- 1 - sum(dbinom(0:k-1, n, p))
cat("该地活产新生儿的畸形率估计值为：", prob * 100)
该地活产新生儿的畸形率估计值为： 51.6608

样本均数与总体均数的比较

# 假设检验
population_mean <- 72  # 总体均数
sample_mean <- 75.5  # 样本均数
sample_std <- 6.5  # 样本标准差
n <- 25  # 样本容量

# 计算t统计量
t_statistic <- (sample_mean - population_mean) / (sample_std / sqrt(n))

# 计算p值
p_value <- 1 - pt(t_statistic, df = n-1)

# 输出结果
if (p_value < 0.05) {
  cat("根据t检验，可以认为该山区成年男子的脉搏高于一般人群，p值为", p_value, "\n")
} else {
  cat("根据t检验，无法认为该山区成年男子的脉搏高于一般人群，p值为", p_value, "\n")
}
根据t检验，可以认为该山区成年男子的脉搏高于一般人群，p值为 0.006364546

配对设计的两样本均数的比较

# 原始数据
data <- matrix(c(122, 145, 113, 128, 141, 156, 123, 122, 105, 121,
                 124, 105, 144, 123, 115, 101, 117, 127), ncol = 2)

# 计算差值
diff <- data[, 2] - data[, 1]

# 进行假设检验
result <- t.test(diff)

# 输出结果
if (result$p.value < 0.05) {
  cat("根据t检验，药物治疗前后血红蛋白含量有显著变化，p值为", result$p.value, "\n")
} else {
  cat("根据t检验，药物治疗前后血红蛋白含量没有显著变化，p值为", result$p.value, "\n")
}
根据t检验，药物治疗前后血红蛋白含量没有显著变化，p值为 0.2220104

两个样本均数比较（成组设计）

# 实验组数据
experimental_group <- c(122, 113, 141, 123, 105, 124, 144, 115, 117)
# 对照组数据
control_group <- c(148, 129, 156, 122, 121, 105, 123, 100, 126)

# 假设检验
result <- t.test(experimental_group, control_group)

# 输出结果
if (result$p.value < 0.05) {
  cat("根据独立两样本t检验，可以认为该药物对血红蛋白含量有影响，p值为", result$p.value, "\n")
} else {
  cat("根据独立两样本t检验，无法认为该药物对血红蛋白含量有影响，p值为", result$p.value, "\n")
}
根据独立两样本t检验，无法认为该药物对血红蛋白含量有影响，p值为 0.6985076

多个样本均数比较（成组设计）

# A药组数据
group_a <- c(122, 113, 141, 123, 105)
# B药组数据
group_b <- c(144, 126, 156, 122, 121)
# 对照组数据
control_group <- c(101, 111, 113, 100, 101)

# 单因素方差分析
result <- aov(c(group_a, group_b, control_group) ~ c(rep("A", 5), rep("B", 5), rep("C", 5)))

result
Call:
   aov(formula = c(group_a, group_b, control_group) ~ c(rep("A", 
    5), rep("B", 5), rep("C", 5)))

Terms:
                c(rep("A", 5), rep("B", 5), rep("C", 5)) Residuals
Sum of Squares                                  2050.533  1842.400
Deg. of Freedom                                        2        12

Residual standard error: 12.39086
Estimated effects may be unbalanced

Sum of Squares：平方和，表示每个效应和残差的平方和。 Deg. of Freedom：自由度，表示每个效应和残差的自由度。 Residual standard error：残差标准误差，表示观测值与拟合值之间的离散程度。

配伍组设计多个样本均数比较

# 创建数据框
data <- data.frame(
  Group = rep(c("A", "B", "C"), each = 5),
  Value = c(122, 113, 141, 123, 105, 144, 126, 156, 122, 121, 103, 110, 115, 100, 101)
)

# 执行单因素方差分析
result <- aov(Value ~ Group, data = data)

# 打印方差分析结果
print(summary(result))
Df Sum Sq Mean Sq F value Pr(>F)  
Group        2   1963   981.7   6.359 0.0131 *
Residuals   12   1852   154.4                 
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

样本率与总体率的比较

# 定义总样本数和发生出血症状的样本数
n1 <- 245  # 总样本数
x1 <- 75   # 发生出血症状的样本数

# 定义比例
p0 <- 0.2  # 一般溃疡病患者中的出血发生率

# 执行比例检验
result <- prop.test(x1, n1, p = p0)

# 打印检验结果
print(result)
1-sample proportions test with continuity correction

data:  x1 out of n1, null probability p0
X-squared = 16.588, df = 1, p-value = 4.644e-05
alternative hypothesis: true p is not equal to 0.2
95 percent confidence interval:
 0.2498702 0.3685703
sample estimates:
        p 
0.3061224

完全随机设计两个样本率的比较（四格表资料）

# 创建观察矩阵
observed <- matrix(c(60, 48, 4, 16), nrow = 2, byrow = TRUE)

# 执行卡方检验
result <- chisq.test(observed)

# 打印检验结果
print(result)
Pearson's Chi-squared test with Yates' continuity correction

data:  observed
X-squared = 7.1704, df = 1, p-value = 0.007412

多个样本率的比较

# 创建观察矩阵
observed <- matrix(c(19, 41, 24, 11, 9, 1), nrow = 3, byrow = TRUE)

# 执行卡方检验
result <- chisq.test(observed)

# 打印检验结果
print(result)
Warning message in chisq.test(observed):
"Chi-squared approximation may be incorrect"



    Pearson's Chi-squared test

data:  observed
X-squared = 19.287, df = 2, p-value = 6.483e-05

单向有序分类资料的假设检验

# 创建观察矩阵
observed <- matrix(c(26, 12, 23, 15, 10, 21, 1, 12), nrow = 2, byrow = TRUE)

# 执行卡方检验
result <- chisq.test(observed)

# 打印检验结果
print(result)
Pearson's Chi-squared test

data:  observed
X-squared = 23.181, df = 3, p-value = 3.703e-05
# 创建观察矩阵
observed <- matrix(c(12, 11, 10, 5, 22, 12, 34, 2, 34, 32, 23, 23, 22, 2, 1, 3), nrow = 4, byrow = TRUE)

# 执行卡方检验
result <- chisq.test(observed)

# 打印检验结果
print(result)
Warning message in chisq.test(observed):
"Chi-squared approximation may be incorrect"



    Pearson's Chi-squared test

data:  observed
X-squared = 51.24, df = 9, p-value = 6.29e-08

回归分析

# 创建年龄和身高的向量
age <- c(6.2, 7.0, 10.2, 11.0, 12.1, 9.5, 8.2, 6.5)
height <- c(135, 139, 143, 150, 155, 141, 140, 137)

# 拟合线性回归模型
model <- lm(height ~ age)

# 打印回归结果
print(summary(model))

# 输出回归方程
b0 <- coef(model)[1]
b1 <- coef(model)[2]
cat("regression equation: y = ", b0, " + ", b1, "x", sep="")
Call:
lm(formula = height ~ age)

Residuals:
    Min      1Q  Median      3Q     Max 
-3.4221 -1.3504  0.6605  1.4036  3.1086

Coefficients:
            Estimate Std. Error t value Pr(>|t|)    
(Intercept) 117.0605     4.0170  29.141 1.08e-07 ***
age           2.8786     0.4427   6.502  0.00063 ***
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Residual standard error: 2.575 on 6 degrees of freedom
Multiple R-squared:  0.8757,    Adjusted R-squared:  0.855 
F-statistic: 42.28 on 1 and 6 DF,  p-value: 0.0006301

regression equation: y = 117.0605 + 2.878581x

生存分析

library(survival)

# 创建数据向量
a <- c(200, 155, Inf, Inf, 300, 166, 215, 312, Inf, 213, 166, 222)
b <- c(135, 139, Inf, 143, 150, 155, 141, Inf, 140, 137)

# 创建生存对象
surv_a <- Surv(a, rep(1, length(a)))
surv_b <- Surv(b, rep(1, length(b)))

# 创建Kaplan-Meier生存曲线对象并拟合数据
kmf_a <- survfit(surv_a ~ 1)
kmf_b <- survfit(surv_b ~ 1)

# 绘制Kaplan-Meier曲线
plot(kmf_a, col='red', main='Survival Curve of A and B Groups')
lines(kmf_b, col='blue')
legend('bottomleft', legend=c('A方案', 'B方案'), col=c('red', 'blue'), lty=1)

civilpy：Python数据分析及可视化实例目录929 赞同 · 36 评论文章

ggsurvplot

上一篇：R数据分析:Lasso回归筛选变量构建Cox模型并绘制列线图
下一篇：高分生信必备的TCGA数据库一站式分析神器!真舍不得告诉你

R统计分析基本方法汇总统计分析常用术语

均数与标准差

统计描述

总体均数估计

总体率估计

样本均数与总体均数的比较

配对设计的两样本均数的比较

两个样本均数比较（成组设计）

多个样本均数比较（成组设计）

配伍组设计多个样本均数比较

样本率与总体率的比较

完全随机设计两个样本率的比较（四格表资料）

多个样本率的比较

单向有序分类资料的假设检验

相关分析

回归分析

生存分析

相关推荐

idea本地配置连接远程hadoop集群的一些网络问题解决汇总

无缓存不行?例行升级的入门级阿斯加特AN2 SSD装机点评

Ceph运维手册(基于P版本)

大数据开发前要做什么准备?8台Hadoop服务器进行集群规划前配置

Tensorflow分类loss函数总结 tensorflow绘制loss曲线

R语言学习笔记(七) -离散型数据的模型预测2

iOS Runtime详解

PHP 远程调试最佳实践

7 个对 Java 意义重大的性能指标，你知道几个?

Laravel框架使用图片处理简单教程

R统计分析基本方法汇总 统计分析常用术语

均数与标准差

统计描述

总体均数估计

总体率估计

样本均数与总体均数的比较

配对设计的两样本均数的比较

两个样本均数比较（成组设计）

多个样本均数比较（成组设计）

配伍组设计多个样本均数比较

样本率与总体率的比较

完全随机设计两个样本率的比较（四格表资料）

多个样本率的比较

单向有序分类资料的假设检验

相关分析

回归分析

生存分析

相关推荐

idea本地配置连接远程hadoop集群的一些网络问题解决汇总

无缓存不行?例行升级的入门级阿斯加特AN2 SSD装机点评

Ceph运维手册(基于P版本)

大数据开发前要做什么准备?8台Hadoop服务器进行集群规划前配置

Tensorflow分类loss函数总结 tensorflow绘制loss曲线

R语言学习笔记(七) -离散型数据的模型预测2

iOS Runtime详解

PHP 远程调试最佳实践

7 个对 Java 意义重大的性能指标，你知道几个?

Laravel框架使用图片处理简单教程

R统计分析基本方法汇总统计分析常用术语