当前位置：首页 > news >正文

数据分析-非参数秩方法

news 来源：原创 2024/5/7 12:50:19

文章目录

两种处理方法比较的秩检验
- Wilcoxon秩和检验
- Smirnov检验
成对分组设计下两种处理方法的比较
- 符号检验
- Wilcoxon符号秩检验
多种处理方法比较
- Kruskal-Wallis检验
分组设计下多种处理方法的比较
- Friedman检验

非参数秩方法，即不假定总体分布的具体形式，从数据本身获得所需信息，适用范围广，但忽略了分布类型，针对性差。

本文主要参考《数据分析》范金城，梅长林主编. -2版.

在这里插入图片描述

两种处理方法比较的秩检验

首先理解「秩」是什么，秩即顺序，是数据排序之后的位置。比如N个数据{3，2，4，1，5}，若按从小到大排序可以得到排序结果{1，2，3，4，5}，也就是第一个数据3的秩S₁为3，以此类推S₂=2，S₃=4，S₄=1，S₅=5。

此节即通过秩来比较两种不同处理方法的优劣，也就是将N个数据分为两组，两组分别用两种不同的处理方法，分别为 $n$ 和 $m$ 个（ $m$ =N- $n$ ），共 $C_N^{n}$ 种分法，每种分配方式出现概率为 $\frac{1}{C_N^{n}}$ 。

检验零假设 $H_0$ ：两方法处理效果无显著差异。由于分组是随机的，则秩 $S_1,S_2,···,S_n)$ 的零分布 $P_{H_0}\{S_1=s_1,S_2=s_2,···,S_n=s_n\}=\frac{1}{C_N^{n}}$ 。

Wilcoxon秩和检验

单边假设检验

单边假设即在实验前认为新方法比旧方法好，比如是旧方法的改进版。备择假设 $H_1$ ：新方法优于对照方法。

N个数据分为 $n$ 和 $m$ 个，排序后得到秩，秩分别记为 $S_1,S_2,···,S_n)$ 和 $R_1,R_2,···,R_m)$ ，记秩和为 $W$ ，即 $W_s=S_1+S_2+···+S_n$ ，同理 $W_r=R_1+R_2+···+R_m$ ，得到各种组合情况下的秩和后，即可得到对应零分布。

其实 $W_s$ 和 $W_r$ 的零分布是相同的，用来检验 $H_0$ 也是等价的，即可以算 $n$ 和 $m$ 中较小一个即可。

根据零分布计算 $p$ 值， $p=P_{H_0}\{W_s≥w_s\}$ ，与题目给的显著水平 $\alpha$ 比较，若 $p<\alpha$ ，则拒绝 $H_0$ ，认为新方法比就方法好，否则接受 $H_0$ ，认为两者不存在显著差异。

习题2.1.(1)：求 $m$ =2， $n$ =4情况下，Wilcoxon秩和统计量 $W_s$ 和 $W_r$ 的零分布。
解： $S_1$ , $S_2$ , $S_3$ , $S_4)$ 取各组值对应 $W_s$ 如下表所示：

$S_1$ , $S_2$ , $S_3$ , $S_4)$	$W_s$
1 2 3 4	10
1 2 3 5	11
1 2 3 6	12
1 2 4 5	12
1 2 4 6	13
1 2 5 6	14
1 3 4 5	13
1 3 4 6	14
1 3 5 6	15
1 4 5 6	16
2 3 4 5	14
2 3 4 6	15
2 3 5 6	16
2 4 5 6	17
3 4 5 6	18

由上表得 $W_s$ 的零分布，如下表所示：

$W_s$	$P_{H_0}\{W_s=w_s\}$
10	1/15
11	1/15
12	2/15
13	2/15
14	3/15
15	2/15
16	2/15
17	1/15
18	1/15

$R_1$ , $R_2)$ 取各组值对应 $W_r$ 如下表所示：

$R_1$ , $R_2)$	$W_r$
1 2	3
1 3	4
1 4	5
1 5	6
1 6	7
2 3	5
2 4	6
2 5	7
2 6	8
3 4	7
3 5	8
3 6	9
4 5	9
4 6	10
5 6	11

由上表得 $W_r$ 的零分布，如下表所示：

$W_r$	$P_{H_0}\{W_r=w_r\}$
3	1/15
4	1/15
5	2/15
6	2/15
7	3/15
8	2/15
9	2/15
10	1/15
11	1/15

双边假设检验

双边假设检验即两种方法对我们来说都是新方法，实验前不知道哪个更优。备择假设 $H_1$ ：两方法有显著差异。

同样两组，换了符号为A、B， $W_A$ 为A组秩和，零分布求法一致，概率值 $P_{H_0}\{W_A≥w_A\}$ 和 $P_{H_0}\{W_A≤w_A\}$ ， $p$ 值为这两个概率值中小于1/2的那个的2倍。

同样与显著水平 $\alpha$ 比较，若 $p<\alpha$ ，则拒绝 $H_0$ ，否则接受 $H_0$ ，不再赘述。

结点处理

上述方法是不存在结点的情况，所谓结点可理解为排序相同的点，比如对实验结果排序时，是按档次评价的，若干个结果的属于一个档次，秩相同。

设 $d$ 个个体形成一个结点，对应位置 $l, l + 1,\cdot\cdot\cdot, l + d - 1$ ，比如ABBC对应秩为1224。

使用中间秩= $l+\frac{d-1}{2}$ ，记中间秩和为 $W_s^*$ 和 $W_r^*$ ，有

期望 $E(W_s^*)=\frac{1}{2}n(N+1)$

方差 $Var(W_s^*)=\frac{1}{12}mn(N+1)-\frac{mn\sum_{i=1}^ld_i^3-d_i}{12N(N-1)}$

用标准正态分布代替， $\Phi(c)=P_{H_0}(\frac{W_s^*-E(W_s^*)}{\sqrt{Var(W_s^*)}}≤c)$

$p=1-\Phi(c)$ ，与题目显著水平 $\alpha$ 比较，若 $p<\alpha$ 则拒绝 $H_0$ ，反之接受 $H_0$

~~公式很多很复杂，考前摇一摇。~~

习题2.4：为了比较两种不同的心理咨询方法的效果,将80位接受心理咨询的人随机地分为两组，每组40人，其中一组接受一般的心理咨询，另一组接受特殊的心理咨询,试验结束后,将每个人的心理调整效果做仔细评估,并分为好、较好、较差和差四档,数据如表2.23所示.

解：N=80， $n$ = $m$ =40， $l$ =4， $d_1$ =12， $d_2$ =16， $d_3$ =31， $d_4$ =21。
计算中间秩如下所示：
好： $1+\frac{12-1}{2}=6.5$
较好： $13+\frac{16-1}{2}=20.5$
较差： $29+\frac{31-1}{2}=44$
差： $60+\frac{21-1}{2}=70$
秩和 $W_s^*=8×6.5+10×20.5+14×44+8×70=1433$
期望 $E(W_s^*)=1620$
方差 $Var(W_s^*)=9855$
$p=P_{H_0}\{W_s^*≥1433\}=P_{H_0}(\frac{W_s^*-E(W_s^*)}{\sqrt{Var(W_s^*)}}≥\frac{1433-1620}{99.272})≈1-\Phi(-1.87)=0.03<0.10$
由于 $p<\alpha$ ，故拒绝 $H_0$ ，认为特殊心理咨询方法优于一般方法。

Smirnov检验

当一组数据分散性小，一组数据分散性大时， Wilcoxon秩和检验不能区分这种差异。使用Smirnov检验能很好反映两种方法处理效果的各种差异。

定义经验分布函数 $F_k(x)=\frac{\#\{x_i≤x\}}{k}$ ，其中 ${x_i≤x\}$ 表示 $x_1,x_2,···,x_k$ 中小于等于 $x$ 的个数。比如1、2、3的经验函数分别为 $\frac{1}{3}$ 、 $\frac{2}{3}$ 、 $1$ 。

定义统计量 $D_{m,n}=max| G_m(x)-F_n(x)|$ ，即取两组经验分布函数差值的最大值。

$p=P_{H_0}\{D_{m,n}≥c\}$ ， $p<\alpha$ 时拒绝 $H_0$ ，反之接受 $H_0$ 。

习题2.5：下面是1996年华北五省市区和华东七省市的国民生产总值(GDP)的指数(前一年为100);
华北五省市区GDP指数: 109. 2，114.3，113.5，111.0，112.7
华东七省市的GDP指数: 113.0，112.2，112.7，114 4，115.4，113.4，112.2
利用Smirnov检验法检验这两个地区的GDP指数是否有显著差异( $\alpha$ =0.10).

解：
将数据排序后得到秩，A：1 2 5 9 10；B：3 3 5 7 8 11 12

有序观测值	$G_m(x)$	$F_n(x)$	$G_m(x)-F_n(x)\|$
$z_1$	0	1/5	1/5
$z_2$	0	2/5	1/5
$z_3$	2/7	2/5	4/35
$z_4$	2/7	2/5	4/35
$z_5$	3/7	3/5	6/35
$z_6$	3/7	3/5	6/35
$z_7$	4/7	3/5	1/35
$z_8$	5/7	3/5	4/35
$z_9$	5/7	4/5	3/35
$z_{10}$	5/7	1	2/7
$z_{11}$	6/7	1	1/7
$z_{12}$	1	1	0

由上表的 $D_{7,5}$ 的观测值 $d=\frac{2}{5}$
$p=P_{H_0}\{D_{7,5}≥\frac{2}{5}\}=\frac{1}{12}<\alpha$
故拒绝 $H_0$ ，认为这两个地区GDP有显著差异。

（~~插播反爬信息~~ ）博主CSDN地址：https://wzlodq.blog.csdn.net/

在这里插入图片描述

成对分组设计下两种处理方法的比较

成对分组把数据分为若干组，每个组中的差异都很小，称为齐性组。再把齐性组分为两部分，分别接受两种方法的实验，检验两种方法效果差异。

符号检验

令 $I_i=\begin{cases}1，第i对个体中,新方法效果优于对照方法\\0，否则\end{cases}$
记统计量 $S_N=\sum_{i=1}^NI_i$
可以理解为每一对做差，取正号的总数，即符号检验。

由于每一对中两个数据随机分给两种实验方法，概率为 $\frac{1}{2}$ ，有
$P_{H_0}\{S_N=k\}=\frac{1}{2^N}C_N^k$ ， $k = 0, 1,\cdot\cdot\cdot, N$
$p=P_{H_0}\{S_N≥c\}$
同样的， $p<\alpha$ 时拒绝 $H_0$ ，反之接受 $H_0$ 。

习题2.7.(1)：对 $N$ =4时求符号检验统计量 $S_N$ 的零分布。
解：
$P_{H_0}\{S_N=0\}=\frac{1}{2^0}C_4^0=\frac{1}{16}$
$P_{H_0}\{S_N=1\}=\frac{1}{2^1}C_4^1=\frac{4}{16}$
$P_{H_0}\{S_N=2\}=\frac{1}{2^2}C_4^2=\frac{6}{16}$
$P_{H_0}\{S_N=3\}=\frac{1}{2^3}C_4^3=\frac{4}{16}$
$P_{H_0}\{S_N=4\}=\frac{1}{2^4}C_4^4=\frac{1}{16}$

Wilcoxon符号秩检验

符号检验中并未考虑差值的大小，Wilcoxon符号秩检验进一步考虑了差异值。

令 $N_+$ =新方法与对照方法效果度量值之差为正的配对数
对每个差值的绝对值赋予秩，并根据原差值赋予正负号，得到符号秩。

记 $S_1<S_2<···S_{N+}$ 表示为正的秩，为负用 $R$ 表示。
零分布 $P_{H_0}=\{V_s=v\}=\frac{\#\{v;N\}}{2^N}$ ，其中n=0,1,···, $\frac{N(N+1)}{2}$
其中， ${v;N\}$ 表示所有可能出现的 $2^N$ 种符号秩情形中，正号秩之和为 $v$ 的个数。

定义秩和统计量 $V_s=S_1+S_2+···+S_{N_+}$
$p=P_{H_0}\{V_s≥c\}$

习题2.9：对 $N$ =4，求Wilcoxon符号秩统计量 $V_s$ 的零分布。
解：符号秩各种取值情况如下表所示：

符号秩	$V_s=v_s$
-1 -2 -3 -4	0
-1 -2 -3 4	4
-1 -2 3 -4	3
-1 2 -3 -4	2
1 -2 -3 -4	1
-1 -2 3 4	7
-1 2 -3 4	6
1 -2 -3 4	5
-1 2 3 -4	5
1 -2 3 -4	4
1 2 -3 -4	3
-1 2 3 4	9
1 -2 3 4	8
1 2 -3 4	7
1 2 3 -4	6
1 2 3 4	10

得 $V_s$ 零分布：

$V_s$	$P_{H_0}\{V_s=v_s\}$
0	1/16
1	1/16
2	1/16
3	2/16
4	2/16
5	2/16
6	2/16
7	2/16
8	1/16
9	1/16
10	1/16

在这里插入图片描述

多种处理方法比较

前面都是两种处理方法的比较，现介绍三种及以上处理方法的比较。

Kruskal-Wallis检验

假设 $H_0$ ：各处理方法的效果无显著差异。
令 $R_i^+$ 表示各组秩和

统计量 $K=\frac{12}{N(N+1)}\sum_{i=1}^s\frac{R_{i+}^2}{n_i}-3(N+1)$

$p$ 由 $P_{H_0}\{K≥c\}$ 确定。

援引书上例子：
在这里插入图片描述

分组设计下多种处理方法的比较

即将成对分组应用到多种处理方法中。

令 $R_{ij}$ 表示第 $j$ 组中接受第 $i$ 种方法检验的个体的秩。
各组中 $s$ 个个体随机指定给 $s$ 个方法，即 $s!$ 种分配法。
$P_{H_0}\{R_{11}=r_{11},R_{s1}=r_{s1},···,R_{1N}=r_{1N},R_{sN}=r_{sN}\}={(\frac{1}{s!})}^N$