当前位置: 首页 > news >正文

Matplotlib-数据可视化详解

1. 数据可视化简介
  • 可视化介绍

    • 数据可视化是指直观展现数据,它是数据处理过程的一部分。

    • 把数值绘制出来更方便比较。借助数据可视化,能更直观地理解数据,这是直接查看数据表做不到的

    • 数据可视化有助于揭示数据中隐藏的模式,数据分析时可以利用这些模式选择模型

  • 可视化库介绍

    • 基于Matplotlib 绘制静态图形

      • pandas

      • seaborn

      基于JS (javaScript)

      • pyecharts/echarts

      • plotly

2.Matplotlib的API介绍

Matplotlib提供了两种方法来作图:状态接口和面向对象

  • 导包

    # 使用Matplotlib需要导入pyplot 
    # Matplotlib.pyplot 包含一系列绘图函数的相关函数
    import matplotlib.pyplot as plt

  • 方式1: 状态接口

    # 状态接口方式 绘图.
    import matplotlib.pyplot as plt
    ​
    # 1. 准备x轴 和 y轴的数据.
    x = [-3, 5, 7]  # x轴坐标
    y = [10, 2, 5]  # y轴坐标
    # 2. 创建画布, figure: 创建画布, figsize=指定画布大小
    plt.figure(figsize=(15, 6)) 
    # 3. 绘图, 传入x轴, y轴
    plt.plot(x, y)
    plt.grid(True)  # 添加网格线
    # 4. 设置x轴坐标 和 y轴坐标的范围
    plt.xlim(0, 10)
    plt.ylim(-3, 8)
    # 5. 设置x轴 和 y轴的标签
    plt.xlabel('X Axis', size=20)
    plt.ylabel('Y Axis', size=10)
    # 6. 设置标题.
    plt.title('Line Plot', size=30)
    # 7. 显示图片
    plt.show()

  • 方式2: 面向对象

    # 面向对象 绘图.
    import matplotlib.pyplot as plt
    ​
    # 1. 准备x轴 和 y轴的数据.
    x = [-3, 5, 7]  # x轴坐标
    y = [10, 2, 5]  # y轴坐标
    # 2. 创建画布, 坐标轴对象
    fig, ax = plt.subplots(figsize=(15, 6)) 
    # 3. 绘图, 传入x轴, y轴
    ax.plot(x, y)
    ax.grid(True)  # 添加网格线
    # 4. 设置x轴坐标 和 y轴坐标的范围
    ax.set_xlim(0, 10)
    ax.set_ylim(-3, 8)
    # 5. 设置x轴 和 y轴的标签
    ax.set_xlabel('X Axis', size=20)
    ax.set_ylabel('Y Axis', size=10)
    # 6. 设置标题.
    ax.set_title('Line Plot', size=30)
    # 7. 显示图片
    plt.show()

3.Matplotlib案例-anscombe数据集可视化
  • 数据集介绍

    • 通过Anscombe数据集说明数据可视化的重要性

    • Anscombe数据集由英国统计学家Frank Anscombe创建

    • 数据集包含4组数据,每组数据包含两个连续变量。

    • 每组数据的平均值、方差、相关性基本相同,但是当它们可视化后,就会发现每组数据的模式明显不同。

  • 查看四组数据值

    anscombe.groupby('dataset').describe().T

    describe()查看数据的查看数据的分布情况

    发现每组数据中, x, y 的分布情况基本相同, 从均值, 极值和几个4分位数上看, 这几组数据貌似分布差不多

  • 代码实现

    import pandas as pd
    ​
    # 1. 加载数据
    anscombe = pd.read_csv('data/anscombe.csv')
    anscombe
    ​
    # 2. 查看每组数据, 一共四组, 每组都是11条数据
    anscombe.dataset.value_counts()
    ​
    # 3. 查看每组数据的具体统计信息, 统计结果几乎一致,但是可视化后, 完全不同.
    anscombe.groupby('dataset').describe().T
    ​
    # 4.上面的数据一共可以分成4分 I II III IV  我们把这四份数据分别可视化, 画4张小图, 放到一个画布中
    fig = plt.figure(figsize=(16,8))
    # 在画布中 设置一个两行两列的框, 第一个框 对应axes1
    axes1 = fig.add_subplot(2,2,1)
    # 在画布中 设置一个两行两列的框, 第二个框 对应axes2
    axes2 = fig.add_subplot(2,2,2)
    # 在画布中 设置一个两行两列的框, 第三个框 对应axes3
    axes3 = fig.add_subplot(2,2,3)
    # 在画布中 设置一个两行两列的框, 第四个框 对应axes4
    axes4 = fig.add_subplot(2,2,4)
    ​
    # scatter()函数: 创建散点图.
    # 分别传入四组数据的 x 和 y列值即可, 对应四个坐标系.
    axes1.scatter(anscombe[anscombe['dataset']=='I']['x'],anscombe[anscombe['dataset']=='I']['y'])
    axes2.scatter(anscombe[anscombe['dataset']=='II']['x'],anscombe[anscombe['dataset']=='II']['y'])
    axes3.scatter(anscombe[anscombe['dataset']=='III']['x'],anscombe[anscombe['dataset']=='III']['y'])
    axes4.scatter(anscombe[anscombe['dataset']=='IV']['x'],anscombe[anscombe['dataset']=='IV']['y'])
    plt.show()
4.Matplotlib单变量可视化-直方图
  • 概述

    • 直方图会将数据分组后, 绘制成图表, 来显示数据的分布情况.

  • 示例代码

    # 生成等差数列
    import numpy as np
    np.linspace(3.07, 50.81, 11)  # 等差数列, 包左包右, 生成11个数
    ​
    ​
    # 具体的绘制直方图的动作.
    import matplotlib.pyplot as plt
    plt.rcParams['font.sans-serif'] = ['SimHei'] # 正常显示汉字
    plt.rcParams['axes.unicode_minus'] = False # 正常显示负号
    ​
    plt.figure(figsize=(16, 8))
    # bins表示把数据分成几个组(等价于: np.linspace(), 生成等差数列
    plt.hist(tips['total_bill'], bins=10) # 就写到这里, 先不写下边代码, 可以看到10个区间.   
    ​
    plt.title('总账单金额的分布情况')
    plt.grid(True)
    plt.xlabel('账单金额')
    plt.ylabel('出现次数')
    ​

    import numpy as np np.linspace(3.07,50.81,11) # bins = 10 相当于在账单的最小值, 和最大值范围内生成了11值的等差数列

    11个值划分10个区间, 直方图的高度, 就是落到每个区间中的数据的条目数

5.Matplotlib双变量可视化-散点图
  • 概述

    • 双变量(bivariate)指两个变量

    • 散点图用于表示一个连续变量随另一个连续变量的变化所呈现的大致趋势

    • 例如: 了解账单金额小费之间的关系可以绘制散点图

  • 示例代码

    # 绘制画布
    plt.figure(figsize=(12, 8))
    # 绘制散点图, 传入: x轴(这里是: 账单总金额), y轴(这里是: 小费)
    plt.scatter(tips['total_bill'], tips['tip'])
    # 设置x轴 和 y轴 值
    plt.xlabel('账单金额')
    plt.ylabel('小费金额')
    # 显示网格
    plt.grid(True)

6.Matplotlib多变量可视化-散点图
  • 概述

    • 在散点图的基础上, 可以通过颜色来区分不同的类别

    • 散点的大小也可以用来表示一个变量

  • 示例代码

    • 添加一列, 用来区分不同性别 显示的颜色

      # 添加一列, 用来区分不同性别显示的颜色
      def recode_sex(sex):if sex=='Female':return 'r'else:return 'b'# 调用上述自定义函数, 给 tips这个df对象, 新增一列.
      tips['sex_color'] = tips['sex'].apply(recode_sex)
      ​
      # 查看下男女各组总数
      tips.sex_color.value_counts()

    • 具体的绘制动作

    • plt.figure(figsize=(12, 8))
      # x轴: 账单总金额, y轴: 小费
      # c: 表示散点的颜色
      # s: 表示散点的大小, 可以是一个数, 也可以是一个序列.
      # alpha: 表示散点的透明度.
      plt.scatter(tips.total_bill, tips.tip, c=tips.sex_color, s=tips['size'] * 10, alpha=0.5)
      plt.xlabel('账单金额')
      plt.ylabel('小费金额')
      plt.legend(tips.sex)

相关文章:

  • 北京网站建设多少钱?
  • 辽宁网页制作哪家好_网站建设
  • 高端品牌网站建设_汉中网站制作
  • QT| QT配置CUDA
  • R语言APSIM模型进阶应用与参数优化、批量模拟实践技术
  • C++(学习)2024.9.23
  • ubuntu如何进行切换内核版本全教程
  • LLM - 理解 多模态大语言模型(MLLM) 的 幻觉(Hallucination) 与相关技术 (七)
  • leetcode91. 解码方法,动态规划
  • 最新Kali Linux超详细安装教程(附镜像包)
  • 『C/C++』整型和字符串相互转换
  • itextsharp报错 PdfReader not opened with owner password
  • 【51实物与仿真】基于51单片机设计的波形/函数发生器(正弦波、锯齿波、三角波、矩形波,设定频率步进值,改变振幅,LCD显示)——文末完整资料链接
  • python中数据处理库,机器学习库以及自动化与爬虫
  • flume系列之:出现数据堆积时临时增大sink端消费能力
  • [spring]应用分层 及 Spring IoCDI
  • Leetcode3289. 数字小镇中的捣蛋鬼
  • Unity 百度AI实现无绿幕拍照抠像功能(详解版)
  • “寒冬”下的金三银四跳槽季来了,帮你客观分析一下局面
  • 5分钟即可掌握的前端高效利器:JavaScript 策略模式
  • Android Volley源码解析
  • HashMap ConcurrentHashMap
  • JavaScript 一些 DOM 的知识点
  • js学习笔记
  • Mysql5.6主从复制
  • underscore源码剖析之整体架构
  • 分布式事物理论与实践
  • 前端自动化解决方案
  • 如何设计一个比特币钱包服务
  • 删除表内多余的重复数据
  • 算法-图和图算法
  • 问题之ssh中Host key verification failed的解决
  • 通过调用文摘列表API获取文摘
  • ​【经验分享】微机原理、指令判断、判断指令是否正确判断指令是否正确​
  • ​Base64转换成图片,android studio build乱码,找不到okio.ByteString接腾讯人脸识别
  • ​七周四次课(5月9日)iptables filter表案例、iptables nat表应用
  • # include “ “ 和 # include < >两者的区别
  • # Spring Cloud Alibaba Nacos_配置中心与服务发现(四)
  • ### RabbitMQ五种工作模式:
  • #我与Java虚拟机的故事#连载01:人在JVM,身不由己
  • #我与Java虚拟机的故事#连载09:面试大厂逃不过的JVM
  • $.each()与$(selector).each()
  • (1)(1.9) MSP (version 4.2)
  • (1/2)敏捷实践指南 Agile Practice Guide ([美] Project Management institute 著)
  • (13):Silverlight 2 数据与通信之WebRequest
  • (4) openssl rsa/pkey(查看私钥、从私钥中提取公钥、查看公钥)
  • (arch)linux 转换文件编码格式
  • (poj1.3.2)1791(构造法模拟)
  • (react踩过的坑)antd 如何同时获取一个select 的value和 label值
  • (补)B+树一些思想
  • (原創) 人會胖會瘦,都是自我要求的結果 (日記)
  • (转)C语言家族扩展收藏 (转)C语言家族扩展
  • *p=a是把a的值赋给p,p=a是把a的地址赋给p。
  • ./和../以及/和~之间的区别
  • .【机器学习】隐马尔可夫模型(Hidden Markov Model,HMM)
  • .gitignore不生效的解决方案
  • .htaccess配置常用技巧
  • .net core 依赖注入的基本用发