当前位置: 首页 > news >正文

数据分析之统计学基础

数据分析是现代企业和科研中不可或缺的一部分,而统计学是数据分析的基石。在本篇博客中,我们将介绍统计学的基础知识,涵盖数据类型、描述性统计(集中趋势、离散程度和偏差程度),并通过代码实例加以说明。

一、数据三大类型

在统计分析中,数据通常分为三大类型:分类数据、顺序数据和数值数据。

1. 分类数据

分类数据是指那些可以分为不同类别的数据,但这些类别之间没有内在顺序。例如:性别(男、女)、颜色(红、绿、蓝)。

2. 顺序数据

顺序数据是指可以排序的数据,但不同类别之间的差异不能被量化。例如:评级(好、中、差),满意度(非常满意、满意、不满意)。

3. 数值数据

数值数据是指可以量化并具有明确意义的数字数据。这类数据可以进一步分为离散数据(如人口数量)和连续数据(如身高、体重)。

二、描述性统计 - 集中趋势

描述性统计的集中趋势指标主要包括:众数、中位数、平均数和分位数。

1. 众数

使用场景:数据量大,识别最常见的类别。

常用数据类型:分类数据

import numpy as np
from scipy import statsdata = [1, 2, 2, 3, 3, 3, 4, 4, 4, 4, 5]
mode = stats.mode(data)
print(f"众数: {mode.mode[0]}, 频数: {mode.count[0]}")

优点:简单直观,易于理解。缺点:在多众数情况下可能不适用。

2. 中位数

使用场景:集中趋势分析

常用数据类型:顺序数据、数值数据

median = np.median(data)
print(f"中位数: {median}")

优点:不受极端值影响。缺点:不能利用所有数据。

3. 平均数

分类:简单平均数、加权平均数

使用场景:数据的均衡点

常用数据类型:数值数据

mean = np.mean(data)
print(f"平均数: {mean}")

优点:利用所有数据,计算简单。缺点:受极端值影响大。

4. 分位数

使用场景:反映数据的集中趋势

常用数据类型:数值数据

q1 = np.percentile(data, 25)
q3 = np.percentile(data, 75)
print(f"第一四分位数: {q1}, 第三四分位数: {q3}")

优点:提供数据分布信息。缺点:计算复杂。

三、描述性统计 - 离散程度

描述性统计的离散程度指标主要包括:异众比率、四分位差、极差、标准差和变异系数。

1. 异众比率

使用场景:衡量众数代表性

常用数据类型:分类数据

def heterogeneity_ratio(data):mode_count = stats.mode(data).count[0]total_count = len(data)return 1 - (mode_count / total_count)hr = heterogeneity_ratio(data)
print(f"异众比率: {hr}")

优点:简单直观。缺点:仅适用于分类数据。

2. 四分位差

使用场景:反映中间50%的数据离散程度

常用数据类型:数值数据

iqr = q3 - q1
print(f"四分位差: {iqr}")

优点:不受极端值影响。缺点:只考虑中间部分数据。

3. 极差

使用场景:反映数据范围

常用数据类型:数值数据

range_ = np.ptp(data)
print(f"极差: {range_}")

优点:计算简单。缺点:受极端值影响大。

4. 标准差

使用场景:数据离散程度

常用数据类型:数值数据

std_dev = np.std(data)
print(f"标准差: {std_dev}")

优点:利用所有数据。缺点:受极端值影响。

5. 变异系数

使用场景:数据变异程度

常用数据类型:数值数据

cv = std_dev / mean
print(f"变异系数: {cv}")

优点:标准化的离散程度指标。缺点:对于均值接近于零的数据不适用。

四、描述性统计 - 偏差程度

1. Z 分数

使用场景:统一量级,增加可比性

常用数据类型:数值数据

z_scores = stats.zscore(data)
print(f"z-scores: {z_scores}")

优点:标准化数据。缺点:需要计算均值和标准差。

2. 协方差和相关系数

使用场景:衡量两个变量的关系

常用数据类型:数值数据

x = [1, 2, 3, 4, 5]
y = [2, 4, 6, 8, 10]# 协方差
covariance = np.cov(x, y)[0, 1]
print(f"协方差: {covariance}")# 相关系数
correlation = np.corrcoef(x, y)[0, 1]
print(f"相关系数: {correlation}")

优点:揭示变量间关系。缺点:仅适用于线性关系。

总结:通过理解和应用上述统计学基础知识,可以帮助我们更好地分析和解释数据,提高数据分析的准确性和科学性。希望本篇博客对你有所帮助!

(交个朋友/找资源/ai办公/技术接单,注明来意)

61353774f66242828147d0210ee69159.jpg

 

 

相关文章:

  • debian 常用命令
  • 通关!游戏设计之道Day17
  • 【如何在Qt C++中使用SSL和TLS加密传输数据?】
  • labview类编程
  • C++模板元编程--函数萃取
  • Cweek2+3
  • 算数运算符
  • 58. 最后一个单词的长度
  • (二刷)代码随想录第16天|104.二叉树的最大深度 559.n叉树的最大深度● 111.二叉树的最小深度● 222.完全二叉树的节点个数
  • java 对接农行支付相关业务(二)
  • Mac免费软件推荐
  • AI办公自动化:kimi批量新建文件夹
  • 【Python音视频技术】用moviepy实现图文成片功能
  • 【活动】开源与闭源大模型:探索未来趋势的双轨道路
  • 安装WordPress
  • [ 一起学React系列 -- 8 ] React中的文件上传
  • Angularjs之国际化
  • CAP理论的例子讲解
  • Date型的使用
  • E-HPC支持多队列管理和自动伸缩
  • java8 Stream Pipelines 浅析
  • JavaWeb(学习笔记二)
  • 初识MongoDB分片
  • 个人博客开发系列:评论功能之GitHub账号OAuth授权
  • 基于web的全景—— Pannellum小试
  • 理清楚Vue的结构
  • 融云开发漫谈:你是否了解Go语言并发编程的第一要义?
  • 手机app有了短信验证码还有没必要有图片验证码?
  • 首页查询功能的一次实现过程
  • 怎么将电脑中的声音录制成WAV格式
  • 基于django的视频点播网站开发-step3-注册登录功能 ...
  • ​520就是要宠粉,你的心头书我买单
  • # Python csv、xlsx、json、二进制(MP3) 文件读写基本使用
  • #13 yum、编译安装与sed命令的使用
  • #pragma once与条件编译
  • (2)MFC+openGL单文档框架glFrame
  • (9)YOLO-Pose:使用对象关键点相似性损失增强多人姿态估计的增强版YOLO
  • (附源码)springboot学生选课系统 毕业设计 612555
  • (没学懂,待填坑)【动态规划】数位动态规划
  • (牛客腾讯思维编程题)编码编码分组打印下标(java 版本+ C版本)
  • (全注解开发)学习Spring-MVC的第三天
  • (入门自用)--C++--抽象类--多态原理--虚表--1020
  • (译) 函数式 JS #1:简介
  • (转)shell调试方法
  • ***利用Ms05002溢出找“肉鸡
  • **PyTorch月学习计划 - 第一周;第6-7天: 自动梯度(Autograd)**
  • .axf 转化 .bin文件 的方法
  • .class文件转换.java_从一个class文件深入理解Java字节码结构
  • .NET Core 2.1路线图
  • .Net FrameWork总结
  • .net后端程序发布到nignx上,通过nginx访问
  • .php结尾的域名,【php】php正则截取url中域名后的内容
  • [2024-06]-[大模型]-[Ollama] 0-相关命令
  • [8-23]知识梳理:文件系统、Bash基础特性、目录管理、文件管理、文本查看编辑处理...
  • [acm算法学习] 后缀数组SA