百度360必应搜狗淘宝本站头条
当前位置:网站首页 > 热门文章 > 正文

涛哥文章系列(25):识别和比较基因列表的功能图谱

bigegpt 2024-10-20 04:30 5 浏览

1 导言

近年来,基因芯片、RNA-Seq和质谱等高通量实验技术可以在系统水平上检测细胞分子。这类分析产生了大量的数据,需要给予生物学上的解释。一种常用的方法是通过在基因维度上进行聚类,根据基因的相似性对不同的基因进行分组。

为了寻找基因之间共享的功能,一种常见的方法是结合生物学知识,如基因本体学(GO)和京都基因和基因组百科全书(KEGG),以确定一组基因的主要生物学主题。

在聚类分析之后,研究人员不仅要确定特定基因簇是否有共同的主题,而且要比较基因簇之间的生物主题。选择感兴趣的聚类,然后对每个选定的聚类进行富集分析的手动步骤是缓慢而乏味的。为了弥补这一差距,我们设计了clusterProfiler,用于比较和可视化基因簇之间的功能图谱。

2 引用

使用clusterProfiler时请引用以下文章。

G Yu, LG Wang, Y Han, QY He. clusterProfiler: an R package for comparing biological themes among gene clusters. OMICS: A Journal of Integrative Biology. 2012, 16(5), 284-287.

3 支持的物种

目前,clusterProfiler支持大约有20个物种,如拟南芥、按蚊、牛、犬、鸡、黑猩猩、大肠杆菌K12株、大肠杆菌Sakai株、苍蝇、人、疟原虫、小鼠、猪、大鼠、恒河猴、蠕虫、非洲爪蟾、酵母菌、斑马鱼,这些物种都得到了GO和KEGG分析的支持。分析也支持天蓝色链霉菌和刚地弓形虫。

4 基因本体分类

clusterProfiler中,groupGO是为在特定级别上基于GO分布进行基因分类而设计的。

require(DOSE)
data(geneList)
gene <- names(geneList)[abs(geneList) > 2]
head(gene)
ggo <- groupGO(gene = gene, organism = "human", ont = "BP", level = 3, readable = TRUE)
head(summary(ggo))

5 富集分析

5.1超几何模型

富集分析是识别生物主题的一种广泛使用的方法。在这里,我们使用超几何模型来评估与疾病相关的选定基因的数量是否比预期的要多。为了确定是否有任何术语以高于偶然预期的频率注释指定的基因列表,clusterProfiler使用超几何分布计算p值:

在该等式中,N是背景分布中的基因总数,M是(直接或间接)注释到感兴趣节点的该分布内的基因的数量,n是感兴趣的基因列表的大小,k是该列表中注释到该节点的基因的数量。默认情况下,背景分布是所有有注释的基因。P值按照多重比较来调整,并计算q值用于FDR控制。

5.2 基因集富集分析

分析基因表达谱的一种常见方法是识别被认为有趣的差异表达基因。我们之前展示的富集分析是基于这些差异表达的基因。这种方法将发现差异很大的基因,但它不会检测到差异很小的情况,而是在一组相关基因中以协同的方式得到证明。基因集富集分析(GSEA)直接解决了这一限制。所有基因都可以在GSEA中使用;GSEA聚合了一个基因集中的每个基因的统计数据,因此可以检测到预定义的集合中的所有基因以一种小但协调的方式发生变化的情况。因为很可能许多相关的表型差异表现为一组基因的微小但一致的变化。

基因是根据它们的表型进行排序的。给定一组先验定义的基因S(例如,共享相同GO或KEGG类别的基因),GSEA的目标是确定S的成员是随机分布在整个排序的基因列表(L)中还是主要在顶部或底部找到。GSEA方法有三个关键要素:

·富集分数的计算。

富集分数(ES)表示集合S在排序列表L的顶部或底部被过度表示的程度。该分数是这样计算的,沿着列表L向下移动,当我们遇到S中存在的基因时增加游程和统计量,而当不是S中的基因时降低该统计量来计算的。增量的大小取决于基因统计量(例如,基因与表型的相关性)。ES是随机游走过程中遇到的最大零偏差;它对应于一个加权的Kolmogorov-Smirnov类统计。

·估计ES的显著性水平。

ES的p值是用排列检验计算的。具体地说,我们对基因列表L的基因标签进行置换,并为置换后的数据重新计算基因集合的ES,从而生成ES的零分布。然后,相对于该零分布计算观察到的ES的p值。

·多重假设检验的调整。

当评估整个GO或KEGG基因集时,clusterProfiler调整估计的显著性水平,以考虑多个假设检验,并计算用于FDR控制的q值。

5.3 GO 富集分析

ego <- enrichGO(gene = gene, universe = names(geneList),
                'org.Hs.eg.db', ont = "CC", pvalueCutoff = 0.01,
                readable = TRUE)
head(summary(ego))

5.4 KEGG通路富集分析

kk <- enrichKEGG(gene = gene, organism = "human", pvalueCutoff = 0.01)
head(summary(kk))

5.5 DO富集分析

疾病本体论(DO)富集分析是以DOSE实施的,请参考说明文件。enrichDO函数对于识别感兴趣基因的疾病关联性非常有用,函数gseAnalyzer函数是为DO的基因集富集分析而设计的。

5.6 Reactome途径富集分析

随着KEGG的消亡(至少没有订阅),BioConductor中的KEGG途径数据将不会更新,我们鼓励用户使用以Reactome作为途径数据来源的ReactomePA来分析途径。ReactomePA中的enrichPathway和gsePathway函数调用与enrichKEGG和gseKEGG函数调用一致。

5.7 函数调用

groupGO, enrichGO, enrichKEGG, enrichDO 和enrichPathway的函数调用是一致的。基因的输入参数为entrezgene 向量(人、鼠)或ORF(酵母菌) 的IDs,organism必须是支持的物种(如上所述)。

对于基因集富集分析,gseGO、gseKEGG、gseAnalyzer和gsePathway函数需要额外的参数nPerm来指定排列数。

对于GO分析,ont必须被分别指定为“BP”、“MF”和“CC”中的一个,分别代表生物过程、分子功能和细胞成分。在groupGO中,该级别指定用于基因投影的GO级别。

在富集分析中,pvalueCutoff是根据它们的p值和调整后的p值来限制结果。计算Q值以控制假发现率(FDR)。

readable是指示输入基因ID是否映射到基因符号的逻辑参数。

5.8 可视化

groupGO、enrichGO和enrichKEGG的输出可以通过条形图、富集图和类别-基因-网络图来可视化。在条形图或饼图中可视化富集结果是非常常见的。我们认为饼图具有误导性,仅提供条形图。

5.8.1条形图

barplot(ggo, drop = TRUE, showCategory = 12)
barplot(ego, showCategory = 8)

5.8.2富集图

富集图目前用enrichplot包中的emapplot函数可视化,支持超几何检验和基因集富集化分析的结果。

library(enrichplot)
emapplot(ego)

5.8.3 cnetplot

为了考虑一个基因可能属于多个注释类别的潜在生物学复杂性,并提供数字变化的信息(如果有的话),我们开发了cnetplot函数来提取复杂的关联。

cnetplot(ego, categorySize = "pvalue", foldChange = geneList)

5.8.4 gseaplot

基因集富集分析的运行分数及其与表型的关联性可通过gseaplot可视化。

gseaplot(kk2, geneSetID = "hsa04145")

5.8.5来自pathview包的pathview

clusterProfiler用户还可以使用来自pathview包的pathview函数来可视化KEGG路径。下面的例子说明了如何可视化“hsa04110”途径,我们在前面的分析中富集了这一通路。

require(pathview)
hsa04110 <- pathview(gene.data = geneList, pathway.id = "hsa04110",
                     species = "hsa", limit = list(gene = max(abs(geneList)),
                                                   cpd = 1))

欲了解更多信息,请参阅pathview的说明文档。

6 生物主题比较

clusterProfiler还开发了生物主题比较,它提供了一个函数compareCluster,用于自动计算每个基因簇富集的功能类别。

data(gcSample)
xx <- compareCluster(gcSample, fun="enrichKEGG",
                     organism="hsa", pvalueCutoff=0.05)
dotplot(xx)

默认情况下,仅绘制每个群集的前5个(最重要的)类别。用户可以更改参数showCategory以指定要绘制每个集群的多少个类别,如果showCategory设置为NULL,则将绘制所有结果。

默认情况下,点的大小基于其对应的行百分比,用户可以将参数设置为”count”,以基于基因计数进行比较。参数by还可以设置为“rowPercentage”来标准化点大小,因为某些类别可能包含大量基因,并且使那些小类别的点的大小太小而无法比较。默认参数by设置为“geneRatio”,它对应于输出的“geneRatio”列。为了提供完整的信息,我们还提供了当“by”设置为“rowPercentage”时每个类别中已识别的基因数量(圆括号中的数字)和当“by”设置为“geneRatio”时每个簇标签中的基因簇数(圆括号中的数字),如图3所示。如果点大小基于“count”,则不会显示行数。

p值表示哪些类别更有可能具有生物学意义。绘图中的点根据其相应的p值进行颜色编码。从红色到蓝色的颜色渐变对应于p值递增的顺序。也就是说,红色表示低p值(高度富集),蓝色表示高p值(低富集)。用参数pvalueCutoff给出的阈值过滤掉p值和调整后的p值,由qvalue估计FDR。用户可以参考[2]中的例子;我们分析了200名患者的公开可用的乳腺肿瘤组织表达数据集(GSE11121,Gene Expression Omnibus)[6]。我们从差异表达的基因中鉴定出8个基因簇,并利用compareCluster对这些基因簇进行了丰富的生物学过程的比较。

另一个例子如[7]所示,我们使用[8]中描述的方法计算病毒miRNAs之间的功能相似性,并使用compareCluster比较不同病毒调控的重要KEGG通路。

比较功能被设计成一个通用软件包,用于比较任何种类的本体关联的基因簇,不仅该软件包提供的groupGO、enrichGO和enrichKEGG,而且还包括其他生物和生物医学本体,例如,DOSE包中的enrichDO函数和ReactomePA包中的enrichPathway函数与compareCluster在疾病和反应组途径角度的生物学主题比较中工作得很好。更多细节可以在DOSE和ReactomePA的说明文件中找到。

相关推荐

Java 泛型大揭秘:类型参数、通配符与最佳实践

引言在编程世界中,代码的可重用性和可维护性是至关重要的。为了实现这些目标,Java5引入了一种名为泛型(Generics)的强大功能。本文将详细介绍Java泛型的概念、优势和局限性,以及如何在...

K8s 的标签与选择器:流畅运维的秘诀

在Kubernetes的世界里,**标签(Label)和选择器(Selector)**并不是最炫酷的技术,但却是贯穿整个集群管理与运维流程的核心机制。正是它们让复杂的资源调度、查询、自动化运维变得...

哈希Hash算法:原理、应用(哈希算法 知乎)

原作者:Linux教程,原文地址:「链接」什么是哈希算法?哈希算法(HashAlgorithm),又称为散列算法或杂凑算法,是一种将任意长度的数据输入转换为固定长度输出值的数学函数。其输出结果通常被...

C#学习:基于LLM的简历评估程序(c# 简历)

前言在pocketflow的例子中看到了一个基于LLM的简历评估程序的例子,感觉还挺好玩的,为了练习一下C#,我最近使用C#重写了一个。准备不同的简历:image-20250528183949844查...

55顺位,砍41+14+3!季后赛也成得分王,难道他也是一名球星?

雷霆队最不可思议的新星:一个55号秀的疯狂逆袭!你是不是也觉得NBA最底层的55号秀,就只能当饮水机管理员?今年的55号秀阿龙·威金斯恐怕要打破你的认知了!常规赛阶段,这位二轮秀就像开了窍的天才,直接...

5分钟读懂C#字典对象(c# 字典获取值)

什么是字典对象在C#中,使用Dictionary类来管理由键值对组成的集合,这类集合被称为字典。字典最大的特点就是能够根据键来快速查找集合中的值,其键的定义不能重复,具有唯一性,相当于数组索引值,字典...

c#窗体传值(c# 跨窗体传递数据)

在WinForm编程中我们经常需要进行俩个窗体间的传值。下面我给出了两种方法,来实现传值一、在输入数据的界面中定义一个属性,供接受数据的窗体使用1、子窗体usingSystem;usingSyst...

C#入门篇章—委托(c#委托的理解)

C#委托1.委托的定义和使用委托的作用:如果要把方法作为函数来进行传递的话,就要用到委托。委托是一个类型,这个类型可以赋值一个方法的引用。C#的委托通过delegate关键字来声明。声明委托的...

C#.NET in、out、ref详解(c#.net framework)

简介在C#中,in、ref和out是用于修改方法参数传递方式的关键字,它们决定了参数是按值传递还是按引用传递,以及参数是否必须在传递前初始化。基本语义对比修饰符传递方式可读写性必须初始化调用...

C#广义表(广义表headtail)

在C#中,广义表(GeneralizedList)是一种特殊的数据结构,它是线性表的推广。广义表可以包含单个元素(称为原子),也可以包含另一个广义表(称为子表)。以下是一个简单的C#广义表示例代...

「C#.NET 拾遗补漏」04:你必须知道的反射

阅读本文大概需要3分钟。通常,反射用于动态获取对象的类型、属性和方法等信息。今天带你玩转反射,来汇总一下反射的各种常见操作,捡漏看看有没有你不知道的。获取类型的成员Type类的GetMembe...

C#启动外部程序的问题(c#怎么启动)

IT&OT的深度融合是智能制造的基石。本公众号将聚焦于PLC编程与上位机开发。除理论知识外,也会结合我们团队在开发过程中遇到的具体问题介绍一些项目经验。在使用C#开发上位机时,有时会需要启动外部的一些...

全网最狠C#面试拷问:这20道题没答出来,别说你懂.NET!

在竞争激烈的C#开发岗位求职过程中,面试是必经的一道关卡。而一场高质量的面试,不仅能筛选出真正掌握C#和.NET技术精髓的人才,也能让求职者对自身技术水平有更清晰的认知。今天,就为大家精心准备了20道...

C#匿名方法(c#匿名方法与匿名类)

C#中的匿名方法是一种没有名称只有主体的方法,它提供了一种传递代码块作为委托参数的技术。以下是关于C#匿名方法的一些重要特点和用法:特点省略参数列表:使用匿名方法可省略参数列表,这意味着匿名方法...

C# Windows窗体(.Net Framework)知识总结

Windows窗体可大致分为Form窗体和MDI窗体,Form窗体没什么好细说的,知识点总结都在思维导图里面了,下文将围绕MDI窗体来讲述。MDI(MultipleDocumentInterfac...