当前位置: 首页 > news >正文

数据挖掘与数据分析(二)—— 探索性数据分析EDA(单因子与对比分析) 可视化 (1) —— 集中趋势 离中趋势 数据分布(偏态系数峰态系数正态分布三大分布)抽样理论(误差精度)

探索性数据分析最重要的作用是把数据的全貌进行展现

 

单因子分析

  • 集中趋势:均值、中位数与分位数、众数
  • 离中趋势:标准差、方差
  • 数据分布:偏态与峰态、正态分布与三大分布
  • 抽样理论:抽样误差、抽样精度
     

 

集中趋势

集中趋势——均值、中位数、众数、分位数

集中趋势是数据聚拢位置的一种衡量

 

分位数

分位数就是把数据从小到大排列,切分成等份的数据点

分位数和其他几个值共同作用,有时会产生一些不错的效果

 

分位数当中最常用到的是四分位数

四分位数的计算方法

  • Q1的位置=(n+1)*0.25
  • Q2的位置=(n+1)*0.5
  • Q3的位置=(n+1)*0.75

 

离中趋势

离中趋势——标准差、方差

离中趋势是数据离散程度的衡量

 

 

数据分布

数据分布主要包括偏态系数、峰态系数、正态分布和三大分布

 

偏态系数

偏态系数是数据平均值偏离状态的一种衡量

一个对称的分布其中位数和均值应该接近或者相等。如果一个分布中位数和均值差得比较多,这样的分布就是有偏态的分布

如果偏态系数值为正,就是正偏,就是均值比较大

如果偏态系数值为负,就是负偏,就是中位数比较小

 

峰态系数

峰态系数是数据分布集中强度的衡量

峰态系数越大其顶就会越尖锐,峰态系数越小其分布就会越平缓

 

正态分布的峰态系数一般是3

 

正态分布

正态分布 的图像结果

 

三大分布

卡方分布、t分布和F分布

 

抽样理论

为什么要抽样呢,因为数据量可能异常大,全量计算的时间成本和现实成本都比较大

或者全量检验并不显示,比如测灯泡的寿命

 

抽样误差与精度

 

举例

 

相关文章:

  • 二叉排序树BST(二叉查找树) 二叉平衡树AVL 红黑树
  • B树 B+树
  • Node-Red(一)——简介与安装
  • 数据挖掘与数据分析(四)—— 预处理理论(1) —— 特征工程 Feature Engineering
  • representation learning 表示学习/表征学习
  • Darknet 轻量级深度学习训练框架
  • cfg文件
  • 双向循环神经网络(BiRNN)MNIST手写体识别(tensorflow)
  • 双向循环神经网络(BiRNN)
  • MIPS
  • FPGA
  • Verilog硬件描述语言
  • SLAM
  • 深度估计(Depth Estimation)
  • 视觉里程计Visual Odometry(VO)
  • [微信小程序] 使用ES6特性Class后出现编译异常
  • JavaScript HTML DOM
  • Kibana配置logstash,报表一体化
  • Laravel 实践之路: 数据库迁移与数据填充
  • React-生命周期杂记
  • supervisor 永不挂掉的进程 安装以及使用
  • 开放才能进步!Angular和Wijmo一起走过的日子
  • 模型微调
  • 前端知识点整理(待续)
  • 使用Envoy 作Sidecar Proxy的微服务模式-4.Prometheus的指标收集
  • 以太坊客户端Geth命令参数详解
  • python最赚钱的4个方向,你最心动的是哪个?
  • 京东物流联手山西图灵打造智能供应链,让阅读更有趣 ...
  • ​LeetCode解法汇总1410. HTML 实体解析器
  • #pragma预处理命令
  • #单片机(TB6600驱动42步进电机)
  • $emit传递多个参数_PPC和MIPS指令集下二进制代码中函数参数个数的识别方法
  • (1) caustics\
  • (7)STL算法之交换赋值
  • (env: Windows,mp,1.06.2308310; lib: 3.2.4) uniapp微信小程序
  • (附源码)spring boot火车票售卖系统 毕业设计 211004
  • (机器学习-深度学习快速入门)第三章机器学习-第二节:机器学习模型之线性回归
  • (论文阅读32/100)Flowing convnets for human pose estimation in videos
  • (十七)devops持续集成开发——使用jenkins流水线pipeline方式发布一个微服务项目
  • *** 2003
  • .net core 客户端缓存、服务器端响应缓存、服务器内存缓存
  • .NET 依赖注入和配置系统
  • .NET企业级应用架构设计系列之结尾篇
  • .Net中的集合
  • [【JSON2WEB】 13 基于REST2SQL 和 Amis 的 SQL 查询分析器
  • [C#]winform制作仪表盘好用的表盘控件和使用方法
  • [ccc3.0][数字钥匙] UWB配置和使用(二)
  • [CISCN2021 Quals]upload(PNG-IDAT块嵌入马)
  • [CUDA 学习笔记] CUDA kernel 的 grid_size 和 block_size 选择
  • [exgcd] Jzoj P1158 荒岛野人
  • [E链表] lc83. 删除排序链表中的重复元素(单链表+模拟)
  • [Foreman]解决Unable to find internal system admin account
  • [hdu 3746] Cyclic Nacklace [kmp]
  • [LeetCode]—Longest Palindromic Substring 最长回文子串
  • [Linux] Ubuntu install Miniconda