当前位置: 首页 > news >正文

数据分析:置换检验Permutation Test

欢迎大家关注全网生信学习者系列:

  • WX公zhong号:生信学习者
  • Xiao hong书:生信学习者
  • 知hu:生信学习者
  • CDSN:生信学习者2

介绍

置换检验是一种非参数统计方法,它不依赖于数据的分布形态,因此特别适用于小样本数据集,尤其是当样本总体分布未知或不符合传统参数检验的假设条件时。置换检验的基本思想是通过随机置换样本来评估观察到的统计量是否显著不同于随机情况下的预期值。最初真正认识置换检验是从PERMANOVA分析开始的,PERMANOVA的原理是:

  1. 原始统计量的获取: 首先计算组间距离的平方和与组内距离的平方和之间的差值。这个差值在统计学中类似于F分布统计量,用于评估组间差异的显著性。
  2. 随机置换样本: 接下来,通过随机抽取样本并重新分组,重复计算上述类似F分布的统计量。这个过程需要进行多次,例如1000次,以模拟在随机条件下可能得到的各种统计量值。
  3. 统计量分布的构建与评估: 将第二步中重复计算得到的1000个统计量值组成一个分布。然后,观察原始统计量值在这个分布中的位置。如果在显著性水平(例如0.05)的两端,即表示原始统计量值在随机情况下出现的概率较低,从而可以认为存在显著差异;如果不是,则不能拒绝原假设,即认为没有显著差异。

置换检验的应用:

置换检验方法通常用于小样本组间的比较,它不对样本的总体分布提出要求。这种方法特别适用于那些样本量较小,以至于无法使用传统的参数检验(如t检验)的情况。然而,如果使用基于简单假设检验的统计量,例如在评估两组数据差异时,首先通过t检验获得原始t统计量,然后通过置换检验重新抽取样本并计算t统计量,最后评估原始t统计量在由置换得到的t统计量分布中的位置,此时就需要考虑数据的分布特性。这种方法允许研究者在不依赖于数据分布的前提下,对统计显著性进行更为稳健的评估。

加载R包

library(tidyverse)
library(multcomp)
library(lmPerm)# rm(list = ls())
options(stringsAsFactors = F)
options(future.globals.maxSize = 1000 * 1024^2)

小样本数据案例

现有两组数据,一组是对照组,一组是实验组,它们的样本量分别是3和5,通过以下数据是否能够证实实验处理可以改善结果?

  • 对照组:73,75,78

  • 实验组:68,69,80,76,82

解题思路:T检验或Wilcox检验一般要求任意一组样本量均大于等于5较为合适,且两组样本量相差较小(非平衡数据)。该问题样本量较小,普通的假设检验不适合,可以采用置换检验(两组平均值的差值作为统计量)。具体步骤:

  1. 第一步,零假设是实验组和对照组没有任何差别;
  2. 第二步,获取原始统计量。先计算两组平均值的差值作为统计量, M 0 = 0.333 M_{0} = 0.333 M0=0.333
  3. 第三步,对照组和实验组混合后随机抽取样本组成A和B再计算两组平均值的差值,重复该过程1000次,上述1000次得到的数值组成统计量分布 M 1000 M_{1000} M1000
  4. 第四步,计算 M 1000 M_{1000} M1000大于 M 0 = 0.333 M_{0} = 0.333 M0=0.333的个数 n n n,概率 P = n / 1000 P=n/1000 P=n/1000。若 P < 0.05 P < 0.05 P<0.05则说明实验处理有助于提升结果,否则接受零假设。

自己撰写脚本

control <- c(73, 75, 78)
treatment <- c(68, 69, 80, 76, 82)permute_fun <- function(x1, x2, times = 1000) {# x1 = control# x2 = treatment# times = 1000M0 <- mean(x1) - mean(x2)x <- c(x1, x2)M_distri <- c()for (i in 1:times ) {x1_new <- sample(x, length(x1))x2_new <- sample(x, length(x2))M_temp <- mean(x1_new) - mean(x2_new)M_distri <- c(M_distri, M_temp)}dat <- data.frame(Time = 1:times,Value = M_distri)p_value <- length(M_distri[M_distri > M0]) / length(M_distri)p_label <- paste0("Pvalue = ", p_value, " (M1000 > M0)")pl <- ggplot(dat, aes(x = Value)) + geom_histogram(aes(y=..density..), binwidth=.5, color = "black", fill = "white") +geom_density(alpha=.2, fill="#FF6666") +scale_x_continuous(expand = c(0, 0)) +scale_y_continuous(expand = c(0, 0)) +labs(title = "Distribution of M statistics",x = "Mean(group1) - Mean(group2)") +geom_vline(xintercept = M0, color = "red", linetype = "dashed", linewidth = 1) +  annotate("text", label = p_label, x = 4, y = 0.14, size = 4) +theme_bw()return(pl)
}permute_fun(x1 = control, x2 = treatment)

在这里插入图片描述

结果:Pvalue > 0.05,说明实验处理对结果没有显著提升。

内置函数

除了自己撰写脚本外,还可以通过R包内置的函数实现两组置换检验。

EnvStats::twoSamplePermutationTestLocation(x = control,y = treatment,fcn = 'mean',alternative = 'greater',mu1.minus.mu2 = 0,paired = FALSE,exact = FALSE,n.permutations = 1000,seed = 123)
Results of Hypothesis Test
--------------------------Null Hypothesis:                 mu.x-mu.y = 0Alternative Hypothesis:          True mu.x-mu.y is greater than 0Test Name:                       Two-Sample Permutation TestBased on Differences in Means(Based on SamplingPermutation Distribution1000 Times)Estimated Parameter(s):          mean of x = 75.33333mean of y = 75.00000Data:                            x = control  y = treatmentSample Sizes:                    nx = 3ny = 5Test Statistic:                  mean.x - mean.y = 0.3333333P-value:                         0.497

结果:Pvalue > 0.05,说明实验处理对结果没有显著提升。

总结

  • 置换检验思想不仅仅可以用于参数未知和分布未知的小样本数据,也可以用于大样本数据(计算代价较高);

  • 置换检验也适合组间样本量不平衡的数据。

相关文章:

  • 【JavaEE】Spring Web MVC详解
  • 【ajax核心05】宏任务与微任务
  • 【计算机网络】已解决:“‘ping‘ 不是内部或外部命令,也不是可运行的程序或批处理文件”报错
  • 2-14 基于matlab的GA优化算法优化车间调度问题
  • PMBOK® 第六版 管理项目知识
  • 如何使用Dockerfile创建容器映像
  • 解决WebStorm中不显示npm任务面板
  • JetBrains IDEA 新旧UI切换
  • Linux文本三剑客sed
  • Spring响应式编程之Reactor核心组件
  • 网络聚合通信测试--自动化测试脚本
  • 6月20日(周四)A股行情总结:A股险守3000点,恒生科技指数跌1.6%
  • EVALUATE与XLWT与XLRD一种使用方式
  • 【机器学习300问】125、什么是双向循环神经网络(BRNN)?什么是深度循环神经网络(DRNN)?
  • 吴恩达机器学习 第二课 week4 决策树
  • 【vuex入门系列02】mutation接收单个参数和多个参数
  • const let
  • docker python 配置
  • E-HPC支持多队列管理和自动伸缩
  • happypack两次报错的问题
  • Java 网络编程(2):UDP 的使用
  • java第三方包学习之lombok
  • Java知识点总结(JavaIO-打印流)
  • java中具有继承关系的类及其对象初始化顺序
  • Linux各目录及每个目录的详细介绍
  • OpenStack安装流程(juno版)- 添加网络服务(neutron)- controller节点
  • sessionStorage和localStorage
  • vue数据传递--我有特殊的实现技巧
  • 服务器之间,相同帐号,实现免密钥登录
  • 构建二叉树进行数值数组的去重及优化
  • 如何合理的规划jvm性能调优
  • 如何进阶一名有竞争力的程序员?
  • 使用Gradle第一次构建Java程序
  • 文本多行溢出显示...之最后一行不到行尾的解决
  • 我这样减少了26.5M Java内存!
  • 【云吞铺子】性能抖动剖析(二)
  • 阿里云服务器购买完整流程
  • ​ssh免密码登录设置及问题总结
  • # Maven错误Error executing Maven
  • ### RabbitMQ五种工作模式:
  • (26)4.7 字符函数和字符串函数
  • (DFS + 剪枝)【洛谷P1731】 [NOI1999] 生日蛋糕
  • (Java)【深基9.例1】选举学生会
  • (终章)[图像识别]13.OpenCV案例 自定义训练集分类器物体检测
  • (转)淘淘商城系列——使用Spring来管理Redis单机版和集群版
  • *setTimeout实现text输入在用户停顿时才调用事件!*
  • .aanva
  • .bat文件调用java类的main方法
  • .NET/C# 在代码中测量代码执行耗时的建议(比较系统性能计数器和系统时间)...
  • .net6 webapi log4net完整配置使用流程
  • .NET的数据绑定
  • .NET技术成长路线架构图
  • .net经典笔试题
  • .Net通用分页类(存储过程分页版,可以选择页码的显示样式,且有中英选择)
  • ??在JSP中,java和JavaScript如何交互?