当前位置: 首页 > news >正文

高维列联表

目录

一、数据构造 

二、具体分析

三、高维列联表的压缩/降维处理

四、高维列联表的分层

五、局部表与边缘表 

5.1优势比

六、高维列联表的条件独立性检验 

6.1条件独立性检验举例

6.2辛普森悖论产生的主要原因

​6.3具体分析

七、高维列联表的优比

八、不完备高维列联表


一、数据构造 

二、具体分析

上表为三维2x2x2列联表。其中,“年龄(<40 or 40-59)”为层属性,“呼吸情况(正常 or 不正常)” 为行属性,“吸烟情况(不吸烟 or 吸烟)”为列属性。每一层中,都是一个二维列联表。

三、高维列联表的压缩/降维处理

通过把不同年龄的数据合并,可以将三维列联表压缩成二维列联表。(也可以合并“呼吸情况”的数据,得到“年龄与吸烟情况”的二维表/合并“吸烟情况”的数据,得到“年龄与呼吸情况”的二维表) ,称为边缘表,边缘表即指“忽略”/“边缘化”某个属性后得到的列联表。

四、高维列联表的分层

与压缩降维相反,可以把三维表中的每一层的二维表提取出来加以研究,这时称为局部表

上述三维2×2×2列联表,可以通过按年龄分层,别离出两张二维列联表,即两个局部表。 局部表中的关联性称为条件关联性,即某个属性给定(被控制)时,另外两个属性之间的关系。

局部表的条件关联性可能和边缘表中的关联性有较大差异,甚至是自相矛盾〔辛普森悖论〕。 正是边缘表与局部表分析的条件发生变化,所以把压缩与分层结合起来分析是完全必要的。

分层与压缩相类似地,都可以按照不同的属性压缩或者分层,一般地,按属性A分层,可以分成r个二维c×t列联表;按属性B分层,可以得到c个二维r×t列联表;按属性C分层,可以得到t个二维r×c列联表。

压缩与分层都是针对高维列联表的分析方法,是从不同角度和途径对不同属性之间的关系进展分析的需要。 基于辛普森悖论的存在,压缩与分层经常结合起来使用

五、局部表与边缘表 

5.1优势比

优势比:两个发生比相比;

优势比(Odds Ratios)_weixin_34205826的博客-CSDN博客

 从四格表可知,优势比可以用来度量属性之间的关联性;

根据局部表计算的优势比,称为条件优势; 根据边缘表计算的优势比,称为边缘优势比

与前面所述的局部表与边缘表的关系相一致,条件优势比与边缘优势比是不同的,有时二者会给出完全相反的结论;

⚠️当局部表中两个属性变量条件独立时,所有的条件优势比都等于1;但根据边缘表计算的边缘优势比可能并不等于1,即条件独立不代表边缘独立

六、高维列联表的条件独立性检验 

自由度 :逻辑回归 自由度_回归自由度的官方定义_weixin_26746401的博客-CSDN博客

一般地,按属性A分层,可以分成r个二维c×t列联表;按属性B分层,可以得到c个二维r×t列联表;按属性C分层,可以得到t个二维r×c列联表。

6.1条件独立性检验举例

P值小于0.05则说明有差异存在 ;

6.2辛普森悖论产生的主要原因

(1)在计算总的录取比例时,尽管各个专业的男女生录取比例没有显著差异,但是男生和女生所采用的权重相差较大。

(2)其中,在计算男生录取比例时,录取比例高的专业权重大,录取比例低的专业权重小,导致男生总的录取比例偏高; 在计算女生录取比例时,录取比例高的专业权重小,而录取比例低的专业权重大,从而使总的录取比例偏小。

(3)因此,经过检验,不能说该校有偏爱男生的倾向。

三维列联表除面临前述的条件独立性检验外,还会遇到另外两种独立性检验问题。

以上三种情况下的独立性检验问题之间有以下关系:其中,由左到右是包含和推出的关系,所描述的模型也由简单到复杂。

 为此,可以在处理三维列联表时,按照以上顺序进展检验。如果前面的检验没有被拒绝,就可以不用再进展后面的检验。

6.3具体分析

对于第一种情况下,原假设为:p_{ijk}=p_{i++}p_{+j+}p_{++k}

 

 

七、高维列联表的优比

期望频数除用来描述列联表的独立性、相关性外,还可以描述优势比。 优势比不仅可以用于四格表,还可推广到一般的二维列联表。 可以取二维表的两行两列来构造一个四格表计算优比,三维列联表可以按某一属性分层后形成二维列联表再进行优比分析。

对于属性A,B,C相互独立时,不管按哪个属性分层,各层二维表的优比总等于1

对于A与(B,C)相互独立时,按属性A分层后第i层二维c×t列联表的优比与i无关,故各层B与C的相合程度一样;无论按B,或C分层,这些二维列联表上的优比总等于1

对于A给定后B和C条件独立时,按A分层的二维列联表上的优比总等于1;且按B分层各层A与C相合程度一样,按C分层各层A与B相合程度一样。

对于齐次关联模型,各层二维列联表的优比都与在第几层没有关系。

八、不完备高维列联表

对不完备高维列联表独立性的定义与完备列联表的情形类似,不同的仅仅是定义在非空格上;

以上独立性之间的关系也与完备列联表类似;

独立性外,不完备列联表还有拟相关问题,也与完备列联表类似;与独立性、相关性有关的检验统计量与完备列联表相类似,不同的是自由度,有的需要相应减去空格数m,有的要具体问题具体分析。

相关文章:

  • 0-1规划的MATLAB求解
  • 第十四章第三节2:Java集合框架之队列Queue
  • 海思3559万能平台搭建:RTSP实时播放的优化
  • 持续测试破解自动化测试的行业谜题
  • hai-AcWing计划
  • Windows使用模拟器启动AOSP源码编译的镜像
  • 【Golang开发面经】深信服(两轮技术面)
  • Pytorch实战 | 第P2周:彩色图片识别
  • xLua热更新(一)xLua基本使用
  • 【无标题】近几年攻防演练攻击队典型突破的例子
  • 云原生技术 --- k8s节点组件之kube-proxy的学习与理解
  • Maven ,命令行中,字符编码 设置
  • 网规配置案例分析——国庆
  • SBOM:缓解软件供应链风险的关键
  • Flink SQL在线调试功能的实现
  • [Vue CLI 3] 配置解析之 css.extract
  • 【391天】每日项目总结系列128(2018.03.03)
  • 【EOS】Cleos基础
  • CSS3 聊天气泡框以及 inherit、currentColor 关键字
  • es6
  • iOS | NSProxy
  • Java,console输出实时的转向GUI textbox
  • JavaScript 无符号位移运算符 三个大于号 的使用方法
  • js数组之filter
  • leetcode-27. Remove Element
  • Meteor的表单提交:Form
  • Redis的resp协议
  • Shadow DOM 内部构造及如何构建独立组件
  • Vue全家桶实现一个Web App
  • 道格拉斯-普克 抽稀算法 附javascript实现
  • 汉诺塔算法
  • 欢迎参加第二届中国游戏开发者大会
  • 排序算法之--选择排序
  • 线上 python http server profile 实践
  • ​io --- 处理流的核心工具​
  • %@ page import=%的用法
  • ( )的作用是将计算机中的信息传送给用户,计算机应用基础 吉大15春学期《计算机应用基础》在线作业二及答案...
  • ()、[]、{}、(())、[[]]命令替换
  • (PyTorch)TCN和RNN/LSTM/GRU结合实现时间序列预测
  • (动手学习深度学习)第13章 计算机视觉---微调
  • (附源码)基于ssm的模具配件账单管理系统 毕业设计 081848
  • (十)c52学习之旅-定时器实验
  • (十七)devops持续集成开发——使用jenkins流水线pipeline方式发布一个微服务项目
  • (四)搭建容器云管理平台笔记—安装ETCD(不使用证书)
  • (一)WLAN定义和基本架构转
  • (转载)PyTorch代码规范最佳实践和样式指南
  • (轉貼) UML中文FAQ (OO) (UML)
  • ***检测工具之RKHunter AIDE
  • .Net Core与存储过程(一)
  • .NET Framework 和 .NET Core 在默认情况下垃圾回收(GC)机制的不同(局部变量部分)
  • .NET 发展历程
  • .NET开源快速、强大、免费的电子表格组件
  • :“Failed to access IIS metabase”解决方法
  • @Pointcut 使用
  • [ vulhub漏洞复现篇 ] Celery <4.0 Redis未授权访问+Pickle反序列化利用