百度360必应搜狗淘宝本站头条
当前位置:网站首页 > 热门文章 > 正文

【统计】对P值进行FDR校正的原理(附代码演示)

bigegpt 2024-09-08 11:36 3 浏览

做了多年的生物信息处理,和统计显著已经打过很多交道。然而限于生物出身背景,对于统计知识了解不是很深刻。细细想来,每次对外说出各种检验方式的名称(通常都是以人名命名的那种),自己却鲜有细细了解到底这些检验的原理以及具体操作过程。近日听了一场答辩,评委问道:“为何不做p值校正?”。闻后心里一惊,因为自己并不清楚校正的原理,如果自己遇到这种问题似乎会很难堪了。

结束后,查阅了多方资料。笔者认为对FDR的数学意义及计算实现已经有了正确的认识。总结一下相关知识,在此以飨读者。

利用Benjamini–Hochberg方法计算FDR的计算及R语言实现

FDR的计算相当简单,包括以下几步:

1.对p值进行从小到大的排序,标记上序号1~n;

2.其中,最大的FDR(不考虑重复则为第n位)等于最大的p值;

3.对于n-1位的FDR,取下面两者的较小值:

上一步(第n位)计算得出的FDR值;

p-value*n/(n-1)

4.不断迭代第三步(n-2,n-3....),直至计算到最小p值对应的FDR。

下面直接在R里实现:

###例如这10个p值进行校正

temp <- c(0.01,0.11,0.21,0.31,0.41,0.51,0.61,0.71,0.81,0.91)

p.adjust(temp, method="fdr")

###[1] 0.1000000 0.5500000 0.7000000 0.7750000 0.8200000 0.8500000 0.8714286 0.8875000 0.9000000 0.9100000

根据上述定义,我们知道以此计算出的FDR是有可能出现相同值的---即使其原始p值不同。在上面的例子中,第9位的p值为0.81,根据公式计算出的待选FDR值为0.81*10/9=0.9,比第10位的0.91要小,因此成为真正的FDR。如果我们更改一下条件,将0.81改成0.90,那么结果就会有所不同:

###将0.81改为0.9

temp <- c(0.01,0.11,0.21,0.31,0.41,0.51,0.61,0.71,0.9,0.91)

p.adjust(temp, method="fdr")

###[1] 0.1000000 0.5500000 0.7000000 0.7750000 0.8200000 0.8500000 0.8714286 0.8875000 0.9100000 0.9100000###出现了相同的FDR值

因此这个现象是很正常的。笔者看到Stack Overflow上还有类似的提问,感兴趣的童鞋可进一步参看:


Benjamini–Hochberg方法的几何解释

我们已经知道,p值实际上是拒绝0假设的置信度。这也就意味着,对于n个样本,我们就会期望产生n*p个错误判断。换而言之,对于实际上没有区别的分布进行随机抽样,我们计算出来的p值应该是均一分布的。


注:也就是说有5%的可能性抽出假阳性出来。

如果我们从两个有差别的分布中抽样,那么p值的分布将富集在左侧,而这种趋势与差异程度显然是正相关的:


而对于生物样本分析而言(例如,一个转录谱分析),我们所看到的常常是以上两种效果的叠加。并且值得注意的是,差异项通常远少于非差异项(例如,对于RNA-Seq而言,通常只有总基因数10%以下的差异基因):

因此这种叠加的结果是更偏向无差异的分布,可能长得是这样的:

注:也就是说,如图所示的蓝色和红色部分,如果以p=0.2为threshold(当然这只是个例子),红色的部分都是假阳性。

对于p=0.05的threhold而言,在这里我们有近1:1的真假阳性比例,也就是说这种情况下我们找到一半的差异基因都是假的:

Benjamini–Hochberg方法想解决这一问题的方法的本质,无非就是提高p-value筛选的阈值,因为在p-value<0.05的范围内,真阳性呈偏向分布,而假阳性呈均一分布:

最终能够多筛除假阳性,多保留真阳性:

当然,这种做法也会导致一部分原来p<0.05的真阳性基因被筛掉,也不能排除所有的假阳性。

更多参考:

1.Statquest: https://www.youtube.com/watch?v=K8LQSvtjcEo

2.Stack Overflow:https://stackoverflow.com/questions/10323817/r-unexpected-results-from-p-adjust-fdr

更多生信分析需求请加微信:13120220117

相关推荐

恢复软件6款汇总推荐,帮你减轻数据恢复压力!

在当今数字化生活中,数据丢失的风险如影随形。无论是误删文件、硬盘故障,还是遭遇病毒攻击,丢失的数据都可能给我们带来不小的麻烦。此时,一款优秀的数据恢复软件就成为了挽救数据的关键。今天,为大家汇总推荐...

中兴星星一号刷回官方原版recovery的教程

【搞科技教程】中兴星星一号的官方recovery也来说一下了,因为之前给大家分享过了第三方的recovery了,之前给大家分享的第三方recovery也是采用一键刷入的方式,如果细心的朋友会发现,之前...

新玩机工具箱,Uotan柚坛工具箱软件体验

以前的手机系统功能比较单调,各厂商的重视程度不一样,所以喜欢玩机的朋友会解锁手机系统的读写权限,来进行刷机或者ROOT之类的操作,让使用体验更好。随着现在的手机系统越来越保守,以及自身功能的增强,...

三星g906k刷recovery教程_三星g906k中文recovery下载

【搞科技教程】看到有一些机友在找三星g906k的第三方recovery,下面就来说一下详细的recovery的刷入方法了,因为手机只有有了第三方的recovery之后才可以刷第三方的root包和系统包...

中兴星星2号刷recovery教程_星星二号中文recovery下载

【搞科技教程】咱们的中兴星星2手机也就是中兴星星二号手机的第三方recovery已经出来了,并且是中文版的,有了这个recovery之后,咱们的手机就可以轻松的刷第三方的系统包了,如果没有第三方的re...

数据恢复软件有哪些值得推荐?这 6 款亲测好用的工具汇总请收好!

在数字生活中,数据丢失的阴霾常常突如其来。无论是误删工作文档、格式化重要磁盘,还是遭遇系统崩溃,都可能让我们陷入焦虑。关键时刻,一款得力的数据恢复软件便是那根“救命稻草”。今天,为大家精心汇总6...

中兴u956刷入recovery的教程(中兴e5900刷机)

【搞科技教程】这次主要来给大家说说中兴u956手机如何刷入第三方的recovery,因为第三方的recovery工具是咱们刷第三方rom包的基础,可是很我欠却不会刷,所以太这里来给大家整理了一下详细的...

联想A850+刷recovery教程 联想A850+第三方recovery下载

【搞科技教程】联想A850+的第三方recovery出来了,这个第三方的recovery是非常的重要的,比如咱们的手机要刷第三方的系统包的时候,都是需要用到这个第三方的recovery的,在网上也是有...

工具侠重大更新 智能机上刷机一条龙完成

工具侠是针对玩机的机油开发的一款工具,不管是发烧级别的粉丝,还是普通小白用户,都可以在工具侠上找到你喜欢的工具应用。这不,最新的工具侠2.0.16版本,更新了专门为小白准备的刷机助手工具,以及MTK超...

shift+delete删除的文件找回6种硬盘数据恢复工具

硬盘作为电脑的重要存储设备,如同一个巨大的数字仓库,承载着我们日常工作、学习和生活中的各种文件,从珍贵的照片、重要的工作文档到喜爱的视频、音乐等,都依赖硬盘来安全存放。但有时,我们可能会不小心用sh...

使用vscode+Deepseek 实现AI编程 基于Cline和continue

尊敬的诸位!我是一名专注于嵌入式开发的物联网工程师。关注我,持续分享最新物联网与AI资讯和开发实战。期望与您携手探寻物联网与AI的无尽可能。这两天deepseek3.0上线,据说编程能力比肩Cl...

详解如何使用VSCode搭建TypeScript环境(适合小白)

搭建Javascript环境因为TypeScript不能直接在浏览器上运行。它需要编译器来编译并生成JavaScript文件。所以需要首先安装好javascript环境,可以参考文章:https://...

使用VSCode来书写你的Jupyter Notebooks

现在你可以在VScode里面来书写你的notebook了,使用起来十分的方便。下面来给大家演示一下环境的搭建。首先需要安装一个jupyter的包,使用下面的命令安装:pip3install-ih...

使用VSCode模板提高Vue开发效率(vscode开发vue插件)

安装VSCode安装Vetur和VueHelper插件,安装完成后需要重启VScode。在扩展插件搜索框中找到如下Vetur和VueHelper两个插件,注意看图标。添加Vue模板打...

干货!VsCode接入DeepSeek实现AI编程的5种主流插件详解

AI大模型对编程的影响非常之大,可以说首当其冲,Cursor等对话式编程工具渐渐渗透到开发者的工作中,作为AI编程的明星产品,Cursor虽然好用,但是贵啊,所以咱们得找平替,最好免费那种。俗话说,不...