当前位置: 首页 > news >正文

统计分析方法分类

统计分析方法:

1)数据的统计推断:参数估计与假设检验

方差分析: (proc anova/glm(多因子非均衡时使用))

(要求所研究的指标具有独立性,正态性和方差齐性)

研究若干个因素及因素间的交互作用对一个(或多个)指标的影响,解决如下的问题:

a、对指标的影响,哪些因素重要,哪些因素不重要

b、每个因素中哪种水平对指标来说最好

c、各因素以什么样的水平搭配起来对指标最有利

基本方法:

 把试验数据的总波动分解为由说考虑因素引起的波动和随机因素引起的波动,并分析各因素的波动对总波动的影响,从而判别因素对指标影响是否显著以及影响是否巨大。

 

2)简化数据结构(降维问题):将某些复杂的数据结构通过变量变换等方法使相互依赖的变量变成互不相关,或把高维空间的数据投影到低维空间,使问题简化且损失的信息也不太多。(主成分分析、因子分析、对应分析等)

主成分分析(proc princomp):

当变量个数较多,彼此间存在多重共线性,因为使得观测数据有一定程度的信息重叠,希望用较少的几个综合变量来代替原来较多变量,使得几个综合变量彼此互不相关,且尽可能多地反映原变量的信息。设法将原来的变量重新组合成一组新的互相无关的几个综合变量,同时根据实际需要从中可以取出几个较少的总和变量尽可能多地反映原来变量的信息的统计方法叫做主成分分析或称主分量分析。

因子分析

根据相关性的大小把变量分组,使得同组内的变量相关性高,不同组变量的相关性较低,然后在每一个组内提炼出一个公因子。

从大量的指标中提取有代表性的共性因子,比如客户忠诚度,满意度等。主成份分析是寻找一种逼近,能够最大可能的描述数据的变化(variability)。因子分析可以理解为一个隐变量模型。由此可以说,因子分析某种程度上是一个参数模型。

主成分分析:原始变量的线性组合表示新的综合变量,即主成分;

因子分析:潜在的假想变量和随机影响变量的线性组合表示原始变量。

 

3)分类与判别(归类问题)

对所考察的变量按相似程度进行分类(聚类分析、判别分析等)

聚类是一个将数据集划分为若干组或类的过程,并使得同一个组内的数据对象具有较高的相似度而不同组中的数据对象是不相似的。相似或者不相似描述的是基于数据描述属性的取值来确定的。通常是利用各对象间的距离来进行表示。

数据挖掘领域的聚类算法有很多种,其中k-means聚类算法是最简单而且非常有效的聚类算法。采用k-means聚类算法对整个用户空间进行聚类的主要步骤如下:

1)随机选择k个用户作为种子节点,将k个用户对项的评分数据作为初始的聚类中心。

2)对剩余的用户集合,计算每个用户与k个聚类中心的相似性,将每个用户分配到相似性最高的聚类中。

3)对新生成的聚类,计算聚类中所有用户对项的平均评分,生成新的聚类中心。

4)重复以上23步,直到聚类不再发生改变为止。

例如:通过分组聚类出具有相似行为的客户,并分析客户的共同特征,

可以更好的帮助电子商务的用户了解自己的客户,向客户提供更合适的服务。

判别分析

判别分析是按照一定的判别准则,建立一个或多个判别函数,用研究对象的大量资料确定判别函数中的待定系数,并计算判别指标。据此即可确定某一样本属于何类。例如:为了确诊某种疾病,需要将病人的各项检测指标同各种典型的病历做对照,从而判断其最可能属于哪种疾病。

 

4)变量间的相互联系

分析一个或几个变量的变化是否依赖于另一些变量的变化(回归分析)

分析两组变量间的相互关系(典型相关分析)

回归分析

目的:设法找出变量间的依存(数量)关系, 用函数关系式表达出来。

所谓回归分析法,是在掌握大量观察数据的基础上,利用数理统计方法建立因变量与自变量之间的回归关系函数表达式(称回归方程式)。

回归分析中,当研究的因果关系只涉及因变量和一个自变量时,叫做一元回归分析;当研究的因果关系涉及因变量和两个或两个以上自变量时,叫做多元回归分析。

此外,回归分析中,又依据描述自变量与因变量之间因果关系的函数表达式是线性的还是非线性的,分为线性回归分析和非线性回归分析。通常线性回归分析法是最基本的分析方法,遇到非线性回归问题可以借助数学手段化为线性回归问题处理。

回归分析法是定量预测方法之一。它依据事物内部因素变化的因果关系来预测事物未来的发展趋势。由于它依据的是事物内部的发展规律,因此这种方法比较精确。测报工作中常用的是一元线性回归和多元线性回归模型。

一元线性回归是指事物发展的自变量与因变量之间是单因素间的简单线性关系,它的模型可以表示为: y=a+bx

其中y是因变量,x是自变量,a是常数,b是回归系数。

多元线性回归是指一个因变量与多个自变量之间的线性关系。模型的一般型式为y=a+b1x1+b2x2+…+bnxn   其中,y是因变量,x1x2、…xn是自变量,a是常数,b1b2、…bn是回归系数。

logistic回归(logistic regression)是研究因变量为二分类或多分类观察结果与影响因素(自变量)之间关系的一种多变量分析方法,属概率型非线性回归。

 

在数据挖掘过程中,各种方法使配合使用的。

相关文章:

  • oracle sql*plus
  • 多个选项选中某一个的效果(用到siblings()方法)
  • 安装centos7最小化安装
  • sql*plus spool
  • oracle体系架构
  • 富文本 文字图片点击,(TextView)
  • 好书分享 ——《深度工作》
  • Linux grep命令
  • oracle with
  • 图片选择器ImageEditContainer
  • ETL基本概念
  • python学习笔记5-python的函数
  • oracle物化视图(materialized view)
  • 绝世好题bzoj4300
  • 在存储过程中拥有role的权限(Authid Current_User)
  • 【前端学习】-粗谈选择器
  • 10个确保微服务与容器安全的最佳实践
  • 78. Subsets
  • angular组件开发
  • canvas 五子棋游戏
  • Fastjson的基本使用方法大全
  • gops —— Go 程序诊断分析工具
  • happypack两次报错的问题
  • IndexedDB
  • interface和setter,getter
  • Java 多线程编程之:notify 和 wait 用法
  • javascript从右向左截取指定位数字符的3种方法
  • PHP 程序员也能做的 Java 开发 30分钟使用 netty 轻松打造一个高性能 websocket 服务...
  • React as a UI Runtime(五、列表)
  • Redis中的lru算法实现
  • spring security oauth2 password授权模式
  • SpringBoot 实战 (三) | 配置文件详解
  • Vue.js-Day01
  • 程序员最讨厌的9句话,你可有补充?
  • 对象引论
  • 分布式熔断降级平台aegis
  • 通过几道题目学习二叉搜索树
  • 微信开源mars源码分析1—上层samples分析
  • 项目管理碎碎念系列之一:干系人管理
  • mysql 慢查询分析工具:pt-query-digest 在mac 上的安装使用 ...
  • 没有任何编程基础可以直接学习python语言吗?学会后能够做什么? ...
  • ​LeetCode解法汇总518. 零钱兑换 II
  • ​直流电和交流电有什么区别为什么这个时候又要变成直流电呢?交流转换到直流(整流器)直流变交流(逆变器)​
  • #14vue3生成表单并跳转到外部地址的方式
  • #android不同版本废弃api,新api。
  • #Linux(make工具和makefile文件以及makefile语法)
  • #NOIP 2014# day.1 生活大爆炸版 石头剪刀布
  • #我与Java虚拟机的故事#连载15:完整阅读的第一本技术书籍
  • $redis-setphp_redis Set命令,php操作Redis Set函数介绍
  • (1)(1.8) MSP(MultiWii 串行协议)(4.1 版)
  • (2)STL算法之元素计数
  • (4)事件处理——(7)简单事件(Simple events)
  • (iPhone/iPad开发)在UIWebView中自定义菜单栏
  • (Matlab)使用竞争神经网络实现数据聚类
  • (ResultSet.TYPE_SCROLL_INSENSITIVE,ResultSet.CONCUR_READ_ONLY)讲解