NMDS非度量多维尺度分析—基于微生物群落

bigegpt 2024-09-27 00:35 4 浏览

今天，看到赖江山老师在博客中分享了vegan中的一些函数的中文帮助文件，翻译专业，可读性强，这本材料是我们熟悉vegan原理和提高内涵的有力学习途径。（末尾有彩蛋）

本文主要做NMDS分析并做一张完善的高质量图片，提取stress值，推荐适合NMDS结果的差异分析并通过命令展示在图形上，最后加上置信区间椭圆。

非度量多维尺分析（ NMDS）是一种很好的排序方法，因为它可以使用具有生态学意义的方法来度量群落差异。一个好的相异性测度与环境梯距离具有很好的秩关系。因为 NMDS只使用秩信息，并且映射的在有序空间上是非线性的，故它能处理任意类型的非线性物种矩阵，并能有效、稳健地找到潜在梯度。

NMDS分析，网络上已近有很多相关教程分享其原理，与其他排序（PCA、PCoA、CCA、RDA）方法的不同之处，简单来讲NMDS也是一种使用物种组成数据的排序称作非限制性排序；NMDS基于距离算法，优于PCA、PCoA、CCA、RDA的地方在于当样本或者物种数量过多的时候使用NMDS会更加准确；

vegan 的ordiplot()函数可以用来绘制NMDS 的结果：

plot(vare.mds, type = "t")

vegan 包中的metaMDS()函数不需要单独计算相异矩阵，直接将原始数据矩阵作为输入。结果比以前更丰富，除了奥杜尔包中isoMDS()结果中的成分外还有很多其他结果输出：nobj, nfix, ndim, ndis, ngrp, diss, iidx, jidx, xinit, istart, isform, ities, iregn, iscal, maxits, sratmx, strmin, sfgrmn, dist, dhat, points, stress, grstress, iters, icause, call,model, distmethod, distcall, data, distance, converged, tries,engine, species。该函数将这些的过程封装到一个函数中：

一般生态群落数据比较离散，用平方根转换数据，然后进行 Wisconsin双重标准化，或物种除以它们的最大值将数据均一化为相等的总数。这两个标准化通常可以提高排序的质量，但是我们在最初分析中忘了考虑数据的转化问题。
默认使用 Bray-Curtis相异系数。
运行多次独立的isoMDS()，并在一定次数的尝试之后停止，或者找到两个具有最小应力函数之后停止，返回了最佳的排序结果。
旋转排序图，使样方坐标的最大差位于第一轴上。
对排序结果进行标准化，使一个单元应于将群落相似性从重复相似性减半。
函数发现物种排序轴为样方排序轴的加权平均值并将其扩大，使物种和样方排序轴具有相等的方差，可以使用shrink = TRUE撤消。metaMDS()的帮助页面将提供更多细节，并解释函数使用的帮助页面将提供更多细节，并解释函数使用过程。

清理环境

#清空内存
rm(list=ls())

准备主题和数据


Mytheme <- theme_bw() +
  #scale_fill_brewer(palette = "YIOrRd", guide = guide_legend(title = NULL), limits = c("CK1","CK3","CK5","CK7","CK9","CK11","CK13","CK15","CK17","CK19"))+
  theme(
    
    panel.grid.major=element_blank(),
    panel.grid.minor=element_blank(),
    
    plot.title = element_text(vjust = -8.5,hjust = 0.1),
    axis.title.y =element_text(size = 24,face = "bold",colour = "black"),
    axis.title.x =element_text(size = 24,face = "bold",colour = "black"),
    axis.text = element_text(size = 20,face = "bold"),
    axis.text.x = element_text(colour = "black",size = 14),
    axis.text.y = element_text(colour = "black",size = 14),
    legend.text = element_text(size = 15,face = "bold")
    #legend.position = "none"#是否删除图例
    
  )
#设定路径
path = getwd()
# 导入包
library(phyloseq)
library(ggplot2)
suppressMessages(library(vegan))
# 使用示例数据，注意是phyloseq封装好的
data("GlobalPatterns")
ps = GlobalPatterns

提取数据运算NMDS

vegan_otu <-  function(physeq){
  OTU <-  otu_table(physeq)
  if(taxa_are_rows(OTU)){
    OTU <-  t(OTU)
  }
  return(as(OTU,"matrix"))
}
x = as.data.frame(t(vegan_otu(GlobalPatterns)))
head(x)
x = as.matrix(x)
x = t(t(x)/colSums(x,na=T))* 100 # normalization to total 100
head(x)
##bray
	bray.mds<-metaMDS(t(x), distance="bray", k=2, trymax=100) #maximum numbers of random starts in search of stable solution
	bray.mds
##jackard
	x = decostand(x,"pa")
	jaccard.mds<-metaMDS(t(x), distance="jaccard", k=2, trymax=100)
  jaccard.mds
str(bray.mds)  #structure
# ##  输出坐标
bray_axis = bray.mds$points
jaccard_axis = jaccard.mds$point

计算Stress值

Stress值是反映模型合适程度的指标，NMDS会多次打乱数据计算Stress值，直到找到最合适的模型，也就是最低的Stress值；理想状况下，Stress值为0，一般Stress值低于0.1较为合理（本数据这个值偏高一些）

# 读入实验设计和Alpha多样性值
design = as.data.frame(sample_data(ps))
head(design)
########outbray出图坐标准备
outbray = as.data.frame(bray_axis)
index = merge(outbray,design, by="row.names",all=F)
head(index)
dim(index)
stress = paste("bray ","stress: ",round(bray.mds$stress,3), sep = "")
stress

使用坐标和stress出图

mi = c("#FFF5EB" ,"#FEE6CE" ,"#FDD0A2", "#FDAE6B", "#FD8D3C", "#F16913", "#D94801", "#A63603", "#7F2704","black")
# mi=c("#1B9E77" ,"#D95F02", "#7570B3","#E7298A")
p <-ggplot(index, aes(x=MDS1, y=MDS2, fill = SampleType)) +
  geom_point(alpha=.7, size=5, pch = 21) +
  labs(x=paste("NMDS1",sep=""),
       y=paste("NMDS2" ,sep=""),
       title=stress)+
  #stat_ellipse( linetype = 2,level = 0.65,aes(group  =group, colour =  group))+
  #stat_ellipse( linetype = 1,level = 0.8)+
  #geom_text_repel(aes(label=points$id),size=4)+
  scale_fill_manual(values = mi)+
  #labs(title = "toamto hea and dis")+
  guides(color=guide_legend(title = NULL),shape=guide_legend(title = NULL))+
  #scale_y_continuous(expand = c(0,0))+
  geom_hline(aes(yintercept=0), colour="black", linetype=2) +
  geom_vline(aes(xintercept=max(index$MDS2/2)), colour="black", linetype="dashed")
p
# points$id=row.names(points)
# p+geom_text(aes(label=points$id),size=4)#?stat_ellipse
p = p + Mytheme
p
plot_name  = paste(path,"/a3_NMDS.pdf",sep = "")
ggsave(plot_name, p, width = 8, height = 6)

成图展示：

基于ade4 的NMDS分析（此中文来自赖江山老师团队翻译结果）

非度量多维尺分析（ Non-metric multidimensional scaling, NMDS）可以用）可以用 MASS包中的 isoMDS()函数实现，输入相异矩阵即可。函数实现，输入相异矩阵即可。vegan的 vegdist()函数可以计算群落的相异矩阵，默认是 Bray-Curtis相异系数，现在通常称为 Steinhaus 相似指数，在芬兰称为 Sorensen指数。基本步骤如下指

library(vegan)
library(MASS)
data(varespec)
vare.dis <- vegdist(varespec)
vare.mds0 <- isoMDS(vare.dis)

NMDS排序结构通过迭代来不断最小化应力函数（stress function），默认情况下是找到两个维度并使用度量尺度分析(cmdscale)作为初始结构进行调整。从跟踪(trace)信息中可以看出迭代过程(通过设置参数trace = F来隐藏迭代过程)。

isoMDS()返回一个排序构建过程和应力函数的列表(item points, stress)。S应力函数是一个拟合度统计量，是排序空间内对象结构与原始距离矩阵之间的相异程度的度量。NMDS将观察到的群落差异非线性地映射到排序空间上，可以基于任何类型距离矩阵对对象进行排序。可以用MASS包的函数 Shepard()或者vegan包的stressplot()函数来评估 NMDS的结果（Shepard图）。

stressplot(vare.mds0, vare.dis)

stressplot函数绘制了一个Shepard图，其中横坐标为原始距离，纵坐标为排序距离，用单调的折线拟合。此外，stressplot()显示了这两者距离相关性，如拟合度（goodness of fit）与应力函数的关系是R2= 1 - S2。“fit-based R2”是拟合值θ(d)和运算出的排序图上距离d之间的相关性，或者是折线和点之间的相关性。它应该是线性的，即使拟合有点弯曲，通常仍被称为“线性拟合”。这两个相关性都是基于Shepard图中的残差，但是它们的零模型有所不同。在线性拟合中，零模型是所有排序距离相等，拟合为一条水平直线。这听起来很合理，但是需要N-1维的 N个点的零模型，而这个零模型在排序空间中是没有几何意义的。基本应力采用零模型，所有的观测都放在同一点上，这在几何上是可能的。注意，有时人们使用群落差异和排序距离之间的相关性。但是由于NMDS是一种非线性方法，因此这样做既危险又具有误导性：使用该准则，具有更多非线性关系的分类将会出现更多错误。

reference

http://wap.sciencenet.cn/home.php?mod=space&uid=267448&do=blog&id=1194081

公众号平台回复：vegan 可以得到赖老师团队翻译的vegan中文教程。

欢迎加入微生信生物

微生信生物推文阅读指南

微生信生物

完整代码和RMD文件+测试数据开放使用：后台回复：NMDS

scale_y_continuous

上一篇：跟着iMeta学做图|双侧柱状图展示具有正负相关性的类型数量
下一篇：《ggplot2 数据分析与图形艺术》中的R语言绘图精华

NMDS非度量多维尺度分析—基于微生物群落

清理环境

准备主题和数据

提取数据运算NMDS

计算Stress值

使用坐标和stress出图

reference

欢迎加入微生信生物

相关推荐

无缓存不行?例行升级的入门级阿斯加特AN2 SSD装机点评

Ceph运维手册(基于P版本)

Docker 命令大全（docker命令大全记录表）

替代Docker build的Buildah简单介绍

Docker Desktop安装使用指南:零基础教程

R语言学习笔记(七) -离散型数据的模型预测2

Tensorflow分类loss函数总结 tensorflow绘制loss曲线

服务器硬件RAID性能横评(2)（服务器常用raid技术）

Python教程:第9篇字符串基本操作

k8s中三种POD调度策略介绍 k8s pod间调用

NMDS非度量多维尺度分析—基于微生物群落

清理环境

准备主题和数据

提取数据 运算NMDS

计算Stress值

使用坐标和stress出图

reference

欢迎加入微生信生物

相关推荐

无缓存不行?例行升级的入门级阿斯加特AN2 SSD装机点评

Ceph运维手册(基于P版本)

Docker 命令大全（docker命令大全记录表）

替代Docker build的Buildah简单介绍

Docker Desktop安装使用指南:零基础教程

R语言学习笔记(七) -离散型数据的模型预测2

Tensorflow分类loss函数总结 tensorflow绘制loss曲线

服务器硬件RAID性能横评(2)（服务器常用raid技术）

Python教程:第9篇 字符串基本操作

k8s中三种POD调度策略介绍 k8s pod间调用

提取数据运算NMDS

Python教程:第9篇字符串基本操作