当前位置: 首页 > news >正文

数据分析-非参数秩方法

文章目录

  • 两种处理方法比较的秩检验
    • Wilcoxon秩和检验
    • Smirnov检验
  • 成对分组设计下两种处理方法的比较
    • 符号检验
    • Wilcoxon符号秩检验
  • 多种处理方法比较
    • Kruskal-Wallis检验
  • 分组设计下多种处理方法的比较
    • Friedman检验

非参数秩方法,即不假定总体分布的具体形式,从数据本身获得所需信息,适用范围广,但忽略了分布类型,针对性差。

本文主要参考《数据分析》范金城,梅长林主编. -2版.

在这里插入图片描述

两种处理方法比较的秩检验

首先理解「秩」是什么,秩即顺序,是数据排序之后的位置。比如N个数据{3,2,4,1,5},若按从小到大排序可以得到排序结果{1,2,3,4,5},也就是第一个数据3的秩S1为3,以此类推S2=2,S3=4,S4=1,S5=5。

此节即通过秩来比较两种不同处理方法的优劣,也就是将N个数据分为两组,两组分别用两种不同的处理方法,分别为 n n n m m m个( m m m=N- n n n),共 C N n C_N^{n} CNn种分法,每种分配方式出现概率为 1 C N n \frac{1}{C_N^{n}} CNn1

检验零假设 H 0 H_0 H0:两方法处理效果无显著差异。由于分组是随机的,则秩 ( S 1 , S 2 , ⋅ ⋅ ⋅ , S n ) (S_1,S_2,···,S_n) (S1,S2,⋅⋅⋅,Sn)的零分布 P H 0 { S 1 = s 1 , S 2 = s 2 , ⋅ ⋅ ⋅ , S n = s n } = 1 C N n P_{H_0}\{S_1=s_1,S_2=s_2,···,S_n=s_n\}=\frac{1}{C_N^{n}} PH0{S1=s1,S2=s2,⋅⋅⋅,Sn=sn}=CNn1

Wilcoxon秩和检验


  1. 单边假设检验

单边假设即在实验前认为新方法比旧方法好,比如是旧方法的改进版。备择假设 H 1 H_1 H1:新方法优于对照方法。

N个数据分为 n n n m m m个,排序后得到秩,秩分别记为 ( S 1 , S 2 , ⋅ ⋅ ⋅ , S n ) (S_1,S_2,···,S_n) (S1,S2,⋅⋅⋅,Sn) ( R 1 , R 2 , ⋅ ⋅ ⋅ , R m ) (R_1,R_2,···,R_m) (R1,R2,⋅⋅⋅,Rm),记秩和为 W W W,即 W s = S 1 + S 2 + ⋅ ⋅ ⋅ + S n W_s=S_1+S_2+···+S_n Ws=S1+S2+⋅⋅⋅+Sn,同理 W r = R 1 + R 2 + ⋅ ⋅ ⋅ + R m W_r=R_1+R_2+···+R_m Wr=R1+R2+⋅⋅⋅+Rm,得到各种组合情况下的秩和后,即可得到对应零分布。

其实 W s W_s Ws W r W_r Wr的零分布是相同的,用来检验 H 0 H_0 H0也是等价的,即可以算 n n n m m m中较小一个即可。

根据零分布计算 p p p值, p = P H 0 { W s ≥ w s } p=P_{H_0}\{W_s≥w_s\} p=PH0{Wsws},与题目给的显著水平 α \alpha α比较,若 p < α p<\alpha p<α,则拒绝 H 0 H_0 H0,认为新方法比就方法好,否则接受 H 0 H_0 H0,认为两者不存在显著差异。

  • 习题2.1.(1):求 m m m=2, n n n=4情况下,Wilcoxon秩和统计量 W s W_s Ws W r W_r Wr的零分布。
    解: ( S 1 (S_1 (S1, S 2 S_2 S2, S 3 S_3 S3, S 4 ) S_4) S4)取各组值对应 W s W_s Ws如下表所示:
( S 1 (S_1 (S1, S 2 S_2 S2, S 3 S_3 S3, S 4 ) S_4) S4) W s W_s Ws
1 2 3 410
1 2 3 511
1 2 3 612
1 2 4 512
1 2 4 613
1 2 5 614
1 3 4 513
1 3 4 614
1 3 5 615
1 4 5 616
2 3 4 514
2 3 4 615
2 3 5 616
2 4 5 617
3 4 5 618

由上表得 W s W_s Ws的零分布,如下表所示:

W s W_s Ws P H 0 { W s = w s } P_{H_0}\{W_s=w_s\} PH0{Ws=ws}
101/15
111/15
122/15
132/15
143/15
152/15
162/15
171/15
181/15

( R 1 (R_1 (R1, R 2 ) R_2) R2)取各组值对应 W r W_r Wr如下表所示:

( R 1 (R_1 (R1, R 2 ) R_2) R2) W r W_r Wr
1 23
1 34
1 45
1 56
1 67
2 35
2 46
2 57
2 68
3 47
3 58
3 69
4 59
4 610
5 611

由上表得 W r W_r Wr的零分布,如下表所示:

W r W_r Wr P H 0 { W r = w r } P_{H_0}\{W_r=w_r\} PH0{Wr=wr}
31/15
41/15
52/15
62/15
73/15
82/15
92/15
101/15
111/15
  1. 双边假设检验

双边假设检验即两种方法对我们来说都是新方法,实验前不知道哪个更优。备择假设 H 1 H_1 H1:两方法有显著差异。

同样两组,换了符号为A、B, W A W_A WA为A组秩和,零分布求法一致,概率值 P H 0 { W A ≥ w A } P_{H_0}\{W_A≥w_A\} PH0{WAwA} P H 0 { W A ≤ w A } P_{H_0}\{W_A≤w_A\} PH0{WAwA} p p p值为这两个概率值中小于1/2的那个的2倍。

同样与显著水平 α \alpha α比较,若 p < α p<\alpha p<α,则拒绝 H 0 H_0 H0,否则接受 H 0 H_0 H0,不再赘述。

  1. 结点处理

上述方法是不存在结点的情况,所谓结点可理解为排序相同的点,比如对实验结果排序时,是按档次评价的,若干个结果的属于一个档次,秩相同。

d d d个个体形成一个结点,对应位置 l , l + 1 , ⋅ ⋅ ⋅ , l + d − 1 l,l+1,···,l+d-1 l,l+1,⋅⋅⋅,l+d1,比如ABBC对应秩为1224。

使用中间秩= l + d − 1 2 l+\frac{d-1}{2} l+2d1,记中间秩和为 W s ∗ W_s^* Ws W r ∗ W_r^* Wr,有

期望 E ( W s ∗ ) = 1 2 n ( N + 1 ) E(W_s^*)=\frac{1}{2}n(N+1) E(Ws)=21n(N+1)

方差 V a r ( W s ∗ ) = 1 12 m n ( N + 1 ) − m n ∑ i = 1 l d i 3 − d i 12 N ( N − 1 ) Var(W_s^*)=\frac{1}{12}mn(N+1)-\frac{mn\sum_{i=1}^ld_i^3-d_i}{12N(N-1)} Var(Ws)=121mn(N+1)12N(N1)mni=1ldi3di

用标准正态分布代替, Φ ( c ) = P H 0 ( W s ∗ − E ( W s ∗ ) V a r ( W s ∗ ) ≤ c ) \Phi(c)=P_{H_0}(\frac{W_s^*-E(W_s^*)}{\sqrt{Var(W_s^*)}}≤c) Φ(c)=PH0(Var(Ws) WsE(Ws)c)

p = 1 − Φ ( c ) p=1-\Phi(c) p=1Φ(c),与题目显著水平 α \alpha α比较,若 p < α p<\alpha p<α则拒绝 H 0 H_0 H0,反之接受 H 0 H_0 H0

公式很多很复杂,考前摇一摇。

  • 习题2.4:为了比较两种不同的心理咨询方法的效果,将80位接受心理咨询的人随机地分为两组,每组40人,其中一组接受一般的心理咨询,另一组接受特殊的心理咨询,试验结束后,将每个人的心理调整效果做仔细评估,并分为好、较好、较差和差四档,数据如表2.23所示.
    在这里插入图片描述
    解:N=80, n n n= m m m=40, l l l=4, d 1 d_1 d1=12, d 2 d_2 d2=16, d 3 d_3 d3=31, d 4 d_4 d4=21。
    计算中间秩如下所示:
    好: 1 + 12 − 1 2 = 6.5 1+\frac{12-1}{2}=6.5 1+2121=6.5
    较好: 13 + 16 − 1 2 = 20.5 13+\frac{16-1}{2}=20.5 13+2161=20.5
    较差: 29 + 31 − 1 2 = 44 29+\frac{31-1}{2}=44 29+2311=44
    差: 60 + 21 − 1 2 = 70 60+\frac{21-1}{2}=70 60+2211=70
    秩和 W s ∗ = 8 × 6.5 + 10 × 20.5 + 14 × 44 + 8 × 70 = 1433 W_s^*=8×6.5+10×20.5+14×44+8×70=1433 Ws=8×6.5+10×20.5+14×44+8×70=1433
    期望 E ( W s ∗ ) = 1620 E(W_s^*)=1620 E(Ws)=1620
    方差 V a r ( W s ∗ ) = 9855 Var(W_s^*)=9855 Var(Ws)=9855
    p = P H 0 { W s ∗ ≥ 1433 } = P H 0 ( W s ∗ − E ( W s ∗ ) V a r ( W s ∗ ) ≥ 1433 − 1620 99.272 ) ≈ 1 − Φ ( − 1.87 ) = 0.03 < 0.10 p=P_{H_0}\{W_s^*≥1433\}=P_{H_0}(\frac{W_s^*-E(W_s^*)}{\sqrt{Var(W_s^*)}}≥\frac{1433-1620}{99.272})≈1-\Phi(-1.87)=0.03<0.10 p=PH0{Ws1433}=PH0(Var(Ws) WsE(Ws)99.27214331620)1Φ(1.87)=0.03<0.10
    由于 p < α p<\alpha p<α,故拒绝 H 0 H_0 H0,认为特殊心理咨询方法优于一般方法。

Smirnov检验


当一组数据分散性小,一组数据分散性大时, Wilcoxon秩和检验不能区分这种差异。使用Smirnov检验能很好反映两种方法处理效果的各种差异。

定义经验分布函数 F k ( x ) = # { x i ≤ x } k F_k(x)=\frac{\#\{x_i≤x\}}{k} Fk(x)=k#{xix},其中 # { x i ≤ x } \#\{x_i≤x\} #{xix}表示 x 1 , x 2 , ⋅ ⋅ ⋅ , x k x_1,x_2,···,x_k x1,x2,⋅⋅⋅,xk中小于等于 x x x的个数。比如1、2、3的经验函数分别为 1 3 \frac{1}{3} 31 2 3 \frac{2}{3} 32 1 1 1

定义统计量 D m , n = m a x ∣ G m ( x ) − F n ( x ) ∣ D_{m,n}=max| G_m(x)-F_n(x)| Dm,n=maxGm(x)Fn(x),即取两组经验分布函数差值的最大值。

p = P H 0 { D m , n ≥ c } p=P_{H_0}\{D_{m,n}≥c\} p=PH0{Dm,nc} p < α p<\alpha p<α时拒绝 H 0 H_0 H0,反之接受 H 0 H_0 H0

  • 习题2.5:下面是1996年华北五省市区和华东七省市的国民生产总值(GDP)的指数(前一年为100);
    华北五省市区GDP指数: 109. 2,114.3,113.5,111.0,112.7
    华东七省市的GDP指数: 113.0,112.2,112.7,114 4,115.4,113.4,112.2
    利用Smirnov检验法检验这两个地区的GDP指数是否有显著差异( α \alpha α=0.10).

解:
将数据排序后得到秩,A:1 2 5 9 10;B:3 3 5 7 8 11 12

有序观测值 G m ( x ) G_m(x) Gm(x) F n ( x ) F_n(x) Fn(x) ∣ G m ( x ) − F n ( x ) ∣ | G_m(x)-F_n(x)| Gm(x)Fn(x)
z 1 z_1 z101/51/5
z 2 z_2 z202/51/5
z 3 z_3 z32/72/54/35
z 4 z_4 z42/72/54/35
z 5 z_5 z53/73/56/35
z 6 z_6 z63/73/56/35
z 7 z_7 z74/73/51/35
z 8 z_8 z85/73/54/35
z 9 z_9 z95/74/53/35
z 10 z_{10} z105/712/7
z 11 z_{11} z116/711/7
z 12 z_{12} z12110

由上表的 D 7 , 5 D_{7,5} D7,5的观测值 d = 2 5 d=\frac{2}{5} d=52
p = P H 0 { D 7 , 5 ≥ 2 5 } = 1 12 < α p=P_{H_0}\{D_{7,5}≥\frac{2}{5}\}=\frac{1}{12}<\alpha p=PH0{D7,552}=121<α
故拒绝 H 0 H_0 H0,认为这两个地区GDP有显著差异。

插播反爬信息 )博主CSDN地址:https://wzlodq.blog.csdn.net/

在这里插入图片描述

成对分组设计下两种处理方法的比较

成对分组把数据分为若干组,每个组中的差异都很小,称为齐性组。再把齐性组分为两部分,分别接受两种方法的实验,检验两种方法效果差异。

符号检验


I i = { 1 ,第 i 对个体中 , 新方法效果优于对照方法 0 ,否则 I_i=\begin{cases}1,第i对个体中,新方法效果优于对照方法\\0,否则\end{cases} Ii={1,第i对个体中,新方法效果优于对照方法0,否则
记统计量 S N = ∑ i = 1 N I i S_N=\sum_{i=1}^NI_i SN=i=1NIi
可以理解为每一对做差,取正号的总数,即符号检验。

由于每一对中两个数据随机分给两种实验方法,概率为 1 2 \frac{1}{2} 21,有
P H 0 { S N = k } = 1 2 N C N k P_{H_0}\{S_N=k\}=\frac{1}{2^N}C_N^k PH0{SN=k}=2N1CNk k = 0 , 1 , ⋅ ⋅ ⋅ , N k=0,1,···,N k=0,1,⋅⋅⋅,N
p = P H 0 { S N ≥ c } p=P_{H_0}\{S_N≥c\} p=PH0{SNc}
同样的, p < α p<\alpha p<α时拒绝 H 0 H_0 H0,反之接受 H 0 H_0 H0

  • 习题2.7.(1):对 N N N=4时求符号检验统计量 S N S_N SN的零分布。
    解:
    P H 0 { S N = 0 } = 1 2 0 C 4 0 = 1 16 P_{H_0}\{S_N=0\}=\frac{1}{2^0}C_4^0=\frac{1}{16} PH0{SN=0}=201C40=161
    P H 0 { S N = 1 } = 1 2 1 C 4 1 = 4 16 P_{H_0}\{S_N=1\}=\frac{1}{2^1}C_4^1=\frac{4}{16} PH0{SN=1}=211C41=164
    P H 0 { S N = 2 } = 1 2 2 C 4 2 = 6 16 P_{H_0}\{S_N=2\}=\frac{1}{2^2}C_4^2=\frac{6}{16} PH0{SN=2}=221C42=166
    P H 0 { S N = 3 } = 1 2 3 C 4 3 = 4 16 P_{H_0}\{S_N=3\}=\frac{1}{2^3}C_4^3=\frac{4}{16} PH0{SN=3}=231C43=164
    P H 0 { S N = 4 } = 1 2 4 C 4 4 = 1 16 P_{H_0}\{S_N=4\}=\frac{1}{2^4}C_4^4=\frac{1}{16} PH0{SN=4}=241C44=161

Wilcoxon符号秩检验


符号检验中并未考虑差值的大小,Wilcoxon符号秩检验进一步考虑了差异值。

N + N_+ N+=新方法与对照方法效果度量值之差为正的配对数
对每个差值的绝对值赋予秩,并根据原差值赋予正负号,得到符号秩。

S 1 < S 2 < ⋅ ⋅ ⋅ S N + S_1<S_2<···S_{N+} S1<S2<⋅⋅⋅SN+表示为正的秩,为负用 R R R表示。
零分布 P H 0 = { V s = v } = # { v ; N } 2 N P_{H_0}=\{V_s=v\}=\frac{\#\{v;N\}}{2^N} PH0={Vs=v}=2N#{v;N},其中n=0,1,···, N ( N + 1 ) 2 \frac{N(N+1)}{2} 2N(N+1)
其中, # { v ; N } \#\{v;N\} #{v;N}表示所有可能出现的 2 N 2^N 2N种符号秩情形中,正号秩之和为 v v v的个数。

定义秩和统计量 V s = S 1 + S 2 + ⋅ ⋅ ⋅ + S N + V_s=S_1+S_2+···+S_{N_+} Vs=S1+S2+⋅⋅⋅+SN+
p = P H 0 { V s ≥ c } p=P_{H_0}\{V_s≥c\} p=PH0{Vsc}

  • 习题2.9:对 N N N=4,求Wilcoxon符号秩统计量 V s V_s Vs的零分布。
    解:符号秩各种取值情况如下表所示:
符号秩 V s = v s V_s=v_s Vs=vs
-1 -2 -3 -40
-1 -2 -3 44
-1 -2 3 -43
-1 2 -3 -42
1 -2 -3 -41
-1 -2 3 47
-1 2 -3 46
1 -2 -3 45
-1 2 3 -45
1 -2 3 -44
1 2 -3 -43
-1 2 3 49
1 -2 3 48
1 2 -3 47
1 2 3 -46
1 2 3 410

V s V_s Vs零分布:

V s V_s Vs P H 0 { V s = v s } P_{H_0}\{V_s=v_s\} PH0{Vs=vs}
01/16
11/16
21/16
32/16
42/16
52/16
62/16
72/16
81/16
91/16
101/16

在这里插入图片描述

多种处理方法比较

前面都是两种处理方法的比较,现介绍三种及以上处理方法的比较。

Kruskal-Wallis检验


假设 H 0 H_0 H0:各处理方法的效果无显著差异。
R i + R_i^+ Ri+表示各组秩和

统计量 K = 12 N ( N + 1 ) ∑ i = 1 s R i + 2 n i − 3 ( N + 1 ) K=\frac{12}{N(N+1)}\sum_{i=1}^s\frac{R_{i+}^2}{n_i}-3(N+1) K=N(N+1)12i=1sniRi+23(N+1)

p p p P H 0 { K ≥ c } P_{H_0}\{K≥c\} PH0{Kc}确定。

援引书上例子:
在这里插入图片描述

分组设计下多种处理方法的比较

即将成对分组应用到多种处理方法中。

R i j R_{ij} Rij表示第 j j j组中接受第 i i i种方法检验的个体的秩。
各组中 s s s个个体随机指定给 s s s个方法,即 s ! s! s!种分配法。
P H 0 { R 11 = r 11 , R s 1 = r s 1 , ⋅ ⋅ ⋅ , R 1 N = r 1 N , R s N = r s N } = ( 1 s ! ) N P_{H_0}\{R_{11}=r_{11},R_{s1}=r_{s1},···,R_{1N}=r_{1N},R_{sN}=r_{sN}\}={(\frac{1}{s!})}^N PH0{R11=r11,Rs1=rs1,⋅⋅⋅,R1N=r1N,RsN=rsN}=(s!1)N

Friedman检验


设接受第 i i i个方法实验的 N N N个个体的秩的平均值为 R i ⋅ R_{i·} Ri(i=1,2,···,s)
R i ⋅ = 1 N ( R i 1 + R i 2 + ⋅ ⋅ ⋅ + R i N ) R_{i·}=\frac{1}{N}(R_{i1}+R_{i2}+···+R_{iN}) Ri=N1(Ri1+Ri2+⋅⋅⋅+RiN)

统计量 Q = 12 N s ( s + 1 ) ∑ i = 1 s R i + 2 − 3 N ( s + 1 ) Q=\frac{12}{Ns(s+1)}\sum_{i=1}^sR^2_{i+}-3N(s+1) Q=Ns(s+1)12i=1sRi+23N(s+1)
其中 R i + R_i^+ Ri+仍是表示各组秩和

p p p P H 0 { Q ≥ c } P_{H_0}\{Q≥c\} PH0{Qc}确定。

仍援引书上例子(计算量太大了,都是计算机算
在这里插入图片描述

本文主要介绍了非参数秩方法中各种检测方法的原理,其实都有相应的封装可以调用的,比如Python中的Scipy库,下次介绍Scipy中具体编程应用(挖个坑)。

原创不易,请勿转载本不富裕的访问量雪上加霜
博主首页:https://wzlodq.blog.csdn.net/
来都来了,不评论两句吗👀
如果文章对你有帮助,记得一键三连❤

相关文章:

  • 【JavaWeb篇】使用MyBatis简化JDBC开发|解决SQL语句警告的问题
  • qax特权账号安全能力建设学习咨询
  • 阿里云服务器解析域名,所引起的服务器IP地址无法访问的问题——已解决
  • js 死循环代码debug
  • 微服务应用性能分析实战20 能力进阶:APM 工具自燃?随时客串 APM 工程师
  • 1、设计模式概述
  • 项目内置Express服务器解决Axios发送POST请求mock数据报404错误问题[Vue.js项目实践: 新冠自检系统]
  • Pytorch搭建自定义神经网络
  • Python数据分析——基础数据结构
  • TestNG-常用注解介绍
  • STM32时钟系统和TIMER配置(溢出中断/PWM)实例
  • 随想录一刷Day04——链表
  • 【javaweb简单教程】2.JSP实现数据传递和保存(含四大作用域及简单示例)
  • 7.ROS2笔记-节点
  • 【C++】类和对象(下篇)(万字)
  • [ JavaScript ] 数据结构与算法 —— 链表
  • Angular 4.x 动态创建组件
  • egg(89)--egg之redis的发布和订阅
  • Idea+maven+scala构建包并在spark on yarn 运行
  • in typeof instanceof ===这些运算符有什么作用
  • Java 11 发布计划来了,已确定 3个 新特性!!
  • Javascript 原型链
  • JavaScript标准库系列——Math对象和Date对象(二)
  • JS题目及答案整理
  • Leetcode 27 Remove Element
  • redis学习笔记(三):列表、集合、有序集合
  • Twitter赢在开放,三年创造奇迹
  • Vue 重置组件到初始状态
  • 持续集成与持续部署宝典Part 2:创建持续集成流水线
  • 从零到一:用Phaser.js写意地开发小游戏(Chapter 3 - 加载游戏资源)
  • 欢迎参加第二届中国游戏开发者大会
  • 基于MaxCompute打造轻盈的人人车移动端数据平台
  • 类orAPI - 收藏集 - 掘金
  • 每个JavaScript开发人员应阅读的书【1】 - JavaScript: The Good Parts
  • 通过npm或yarn自动生成vue组件
  • 用 vue 组件自定义 v-model, 实现一个 Tab 组件。
  • Redis4.x新特性 -- 萌萌的MEMORY DOCTOR
  • ​低代码平台的核心价值与优势
  • (arch)linux 转换文件编码格式
  • (编程语言界的丐帮 C#).NET MD5 HASH 哈希 加密 与JAVA 互通
  • (待修改)PyG安装步骤
  • (定时器/计数器)中断系统(详解与使用)
  • (附源码)springboot建达集团公司平台 毕业设计 141538
  • (蓝桥杯每日一题)love
  • (转)Java socket中关闭IO流后,发生什么事?(以关闭输出流为例) .
  • .NET 8 中引入新的 IHostedLifecycleService 接口 实现定时任务
  • .Net Attribute详解(上)-Attribute本质以及一个简单示例
  • .NET Core MongoDB数据仓储和工作单元模式封装
  • .net 打包工具_pyinstaller打包的exe太大?你需要站在巨人的肩膀上-VC++才是王道
  • .net开发引用程序集提示没有强名称的解决办法
  • .NET运行机制
  • @RequestBody与@ModelAttribute
  • @Validated和@Valid校验参数区别
  • [3300万人的聊天室] 作为产品的上游公司该如何?
  • [Android] 240204批量生成联系人,短信,通话记录的APK