当前位置: 首页 > news >正文

数据挖掘学习笔记01——数据挖掘的基本流程

数据挖掘

  • 前言
  • 数据挖掘01——什么是数据挖掘,能解决什么问题
  • 数据挖掘02——Python的数据结构和基本用法
  • 数据挖掘03——工欲善其事必先利其器 扩展包与Python环境
  • 数据挖掘04——数据学习网站
  • 数据挖掘05——数据挖掘的具体步骤
  • 数据挖掘06——如何处理出完整干净的数据?
  • 数据挖掘07——数据建模:该如何选择一个适合我需求的算法?
  • 数据挖掘08——数据评估:如何确认我们的模型已经达标?
  • 数据挖掘09——数据应用:我们的模型是否可以解决业务需求?

前言

笔记来源于系统学习以下课程:
B站最完整系统的Python数据分析-数据挖掘教程,72小时带你快速入门,轻松转行(月入10W+数据分析师强烈推荐!)

数据挖掘01——什么是数据挖掘,能解决什么问题

  1. 什么是数据挖掘?
    数据挖掘——寻找数据中隐含的知识,并用于产生商业价值

  2. 为什么要做数据挖掘?
    在这里插入图片描述

  3. 数据挖掘的产生动因?
    在这里插入图片描述

  4. 数据挖掘有什么用处?
    (1)分类问题——对已知类别的数据进行学习,为新的内容标注一个类别(如:新闻分类等)
    (2)聚类问题——类别预先不清楚,比较适合一些不确定的类别场景(如:树叶类别聚类)
    (3)回归问题——最大特点:生成的结果是连续的(如:回归预测房价)
    (4)关联问题——最常见的一个场景:推荐(如:购物推荐图)

  • 数据学习也是有方法论的!
    数据挖掘经过了数十年的发展和无数专家学者的研究,有很多人提出了完整的流程框架
    应用最多的方法论:
    CRISP-DM(Cross-industry Standard Process for Data Mining,跨行业数据挖掘标准流程)
  1. 数据挖掘怎么做?
    在这里插入图片描述
    • 业务理解(Business Understanding)—— 理解你的数据挖掘要解决什么业务问题在这里插入图片描述
      必须从商业或者从业务的角度去了解项目的要求和最终目的
      去分析整个问题涉及的资源、局限、设想,甚至是风险、意外等情况
      从业务出发,到业务中去

    • 数据理解(Data Understanding)
      在这里插入图片描述
      数据理解阶段的重点:
      在业务理解的基础上,对掌握的数据要有一个清晰、明确的认识
      注意:数据理解和业务理解是相辅相成的

    • 数据准备(Data Preparation)
      在这里插入图片描述
      数据准备是基于原始数据,去构建数据挖掘模型所需的数据集的所有工作,包括数据收集、数据清洗、数据补全、数据整合、数据转换、特征提取等一系列动作。

    • 构建模型(Modeling)
      也叫做训练模型,重点解决技术方面的问题
      选用各种各样的算法模型来处理数据,让模型学习数据的规律,并产出模型
      如果有多重技术要适用,在这一任务中,对于每一个要适用的技术要分别对待
      比如:SVM算法只能输入数值型的数据

    • 模型评估(Evaluation)
      模型的效果如何,能否满足业务需求
      需要适用各种评估手段、评估指标甚至是让业务人员一起参与进来,彻底地评估模型
      在评估之后会有两种情况:
      (1) 评估通过,进入到上线部署阶段
      (2) 评估不通过,要反过来再进行迭代更新

    • 模型部署(Deployment)
      解决一些实际的问题,如:
      长期运行的模型是否有足够的机器来支撑,数据量以及并发程度会不会造成部署的服务出现问题

数据挖掘02——Python的数据结构和基本用法

这部分直接跳过啦~

数据挖掘03——工欲善其事必先利其器 扩展包与Python环境

这里关于安装Anaconda的安装和配置就跳跳跳过啦~

dir() # 查看模块中所包含的工具
help() # 展示模块中所有方法的说明

标准库:
在这里插入图片描述
第三方库——基础模块:
在这里插入图片描述在这里插入图片描述
深度学习平台:
在这里插入图片描述

数据挖掘04——数据学习网站

  • 数据竞赛网站:Kaggle / 天池

  • 数据集网站:ImageNet / Open Images

  • 各领域统计数据:统计局 / 政府机构 / 公司财报

数据挖掘05——数据挖掘的具体步骤

在这里插入图片描述
在这里插入图片描述

数据挖掘06——如何处理出完整干净的数据?

  1. 找到数据
    需要掌握一些数据库的适用技巧
    关系型数据库MySQL、大数据使用的Hbase、HIVE、搜索引擎数据库ES、内存数据库Redis
    图数据库,如NEO4J或者JanusGraph等
    还要与各部分协商以获取数据

  2. 数据探索
    要对数据进行分析、预处理以及转换等基础工作
    以构建出更加贴合你所要预测结果的特征
    大牛把这个环节叫做数据变多或者数据升维

  3. 数据清洗
    处理扩展后的数据、解决所发现的问题,同时又要顾及处理后的数据是否适合应用于下一个步骤

    • 缺失值的处理
      在这里插入图片描述

    • 异常值的处理
      在这里插入图片描述在这里插入图片描述

    • 数据偏差的处理
      在这里插入图片描述
      在这里插入图片描述

    • 数据标准化
      在这里插入图片描述

    • 特征选择
      在这里插入图片描述
      在这里插入图片描述

    • 构建训练集和测试集(有些需要验证集)
      在这里插入图片描述
      在这里插入图片描述

  4. 思想准备
    在这里插入图片描述

数据挖掘07——数据建模:该如何选择一个适合我需求的算法?

建议观看视频 数据建模:该如何选择一个适合我需求的算法?

数据挖掘08——数据评估:如何确认我们的模型已经达标?

建议观看视频 数据评估:如何确认我们的模型已经达标?
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

数据挖掘09——数据应用:我们的模型是否可以解决业务需求?

建议观看视频 数据应用:我们的模型是否可以解决业务需求?
在这里插入图片描述

相关文章:

  • 分布式缓存Hazelcast的部署及与SpringBoot整合使用
  • 1.5 Elasticsearch文档的基本操作
  • 微电网|含分布式发电的微电网中储能装置容量优化配置(Matlab代码实现)
  • postgresql 服务器日志
  • c++ 中map 的find 用法
  • 《MeInGame: Create a Game Character Face from a Single Portrait 》论文解读
  • 实现多线程的方式
  • 精通Java必备的100道面试题——面向对象面试题
  • Tcmalloc内存分配算法的分析
  • 中国按摩器行业市场需求与投资规划分析报告
  • 分布式医疗大数据存储方案研究综述
  • BOPPPS+课程思政教学模式在计算机导论课程中的应用
  • 中国冶金工程行业数据专项调研分析报告
  • mac (M系列)docker 中elasticsearch 搭建和基础使用 7.15.5版本
  • 党务管理信息系统,让组织人员架构管理更便利,操作更流畅
  • 【译】理解JavaScript:new 关键字
  • dva中组件的懒加载
  • js中的正则表达式入门
  • JWT究竟是什么呢?
  • Linux后台研发超实用命令总结
  • Spring核心 Bean的高级装配
  • vue总结
  • 飞驰在Mesos的涡轮引擎上
  • 基于Mobx的多页面小程序的全局共享状态管理实践
  • 深入浅出Node.js
  • 实现简单的正则表达式引擎
  • 推荐一款sublime text 3 支持JSX和es201x 代码格式化的插件
  • 消息队列系列二(IOT中消息队列的应用)
  • 云大使推广中的常见热门问题
  • Redis4.x新特性 -- 萌萌的MEMORY DOCTOR
  • 阿里云API、SDK和CLI应用实践方案
  • ​Distil-Whisper:比Whisper快6倍,体积小50%的语音识别模型
  • ###项目技术发展史
  • #NOIP 2014# day.1 生活大爆炸版 石头剪刀布
  • #pragma multi_compile #pragma shader_feature
  • #常见电池型号介绍 常见电池尺寸是多少【详解】
  • #我与Java虚拟机的故事#连载14:挑战高薪面试必看
  • (3)(3.5) 遥测无线电区域条例
  • (Matalb时序预测)WOA-BP鲸鱼算法优化BP神经网络的多维时序回归预测
  • (zt)最盛行的警世狂言(爆笑)
  • (动手学习深度学习)第13章 计算机视觉---图像增广与微调
  • (附源码)spring boot基于Java的电影院售票与管理系统毕业设计 011449
  • (免费领源码)Java#Springboot#mysql农产品销售管理系统47627-计算机毕业设计项目选题推荐
  • (七)c52学习之旅-中断
  • (一)Mocha源码阅读: 项目结构及命令行启动
  • (转)linux自定义开机启动服务和chkconfig使用方法
  • (转)memcache、redis缓存
  • * 论文笔记 【Wide Deep Learning for Recommender Systems】
  • **python多态
  • .net core 6 redis操作类
  • .NET 服务 ServiceController
  • .net访问oracle数据库性能问题
  • .NET开发人员必知的八个网站
  • /var/spool/postfix/maildrop 下有大量文件
  • @hook扩展分析