当前位置: 首页 > news >正文

数据挖掘--引论

数据挖掘--引论

数据挖掘--认识数据

数据挖掘--数据预处理

数据挖掘--数据仓库与联机分析处理

数据挖掘--分类

数据挖掘--聚类分析:基本概念和方法


1.2什么是数据挖掘

数据挖掘是从大量数据中挖掘有趣模式和知识的过程。

数据源包括数据库、数据仓库、Web、其他信息存储库或动态地流入系统的数据。

  1. 数据清理(消除噪声和删除不一致数据)
  2. 数据集成(多种数据源可以组合在一起)
  3. 数据选择(从数据库中提取与分析任务相关的数据)
  4. 数据变化(通过汇总或聚焦操作,把数据变换和统一成适合挖掘的形式)
  5. 数据挖掘(基本步骤,使用智能方法提取数据模式)
  6. 模式评估(根据某种兴趣度量度,识别知识的真正有趣模式)
  7. 知识表示(使用可视化和知识表示技术,向用户提供挖掘的知识)

1.3数据仓库

数据仓库是一个从多个数据源收集的信息存储库

特点

  • 面向主题
  • 集成的数据
  • 不可更新
  • 随时间不断变化

数据立方体

OLAP(On-line Analytical Processing,联机分析处理)是在基于数据仓库多维模型的基础上实现的面向分析的各类操作的集合。

OLAP的多维分析操作包括:钻取(Drill-down)、上卷(Roll-up)、切片(Slice)、切块(Dice)以及旋转(Pivot),下面还是以上面的数据立方体为例来逐一解释下:

  钻取(Drill-down):在维的不同层次间的变化,从上层降到下一层,或者说是将汇总数据拆分到更细节的数据。

  比如通过对2010年第二季度的总销售数据进行钻取来查看2010年第二季度4、5、6每个月的消费数据,如图;当然也可以钻取浙江省来查看杭州市、宁波市、温州市……这些城市的销售数据。

  上卷(Roll-up):钻取的逆操作,即从细粒度数据向高层的聚合。

如将江苏省、上海市和浙江省的销售数据进行汇总来查看江浙沪地区的销售数据,如图。

  切片(Slice):选择维中特定的值进行分析,比如只选择电子产品的销售数据,或者2010年第二季度的数据。

  切块(Dice):选择维中特定区间的数据或者某批特定值进行分析,比如选择2010年第一季度到2010年第二季度的销售数据,或者是电子产品和日用品的销售数据。

  旋转(Pivot):即维的位置的互换,就像是二维表的行列转换,如图中通过旋转实现产品维和地域维的互换。

1.4可以挖掘什么类型的模式

类/概念描述:特征化与区分

1. 数据特征化

对同类的数据进行汇总,输出方式为饼图、条图等

2. 数据区分

将两个同一属性但不同值的对象进行比较

挖掘频繁模式、关联和相关性

模式

  • 频繁项集:频繁出现的东西
  • 频繁子序列:顾客倾向购买电脑然后购买鼠标
  • 频繁子结构:子结构有不同的结构形式

关联

  • 单维关联规则:x->z
  • 多维关联规则:x,y->z

相关性

属性-值

用于预测分析的分类与回归(了解)

决策树、神经网络、相关分析

聚类分析

聚类是根据类内事物的相似性最大、类间事物的相似性最小的原则把数据对象进行聚类或分组

聚类与分类不同,它们的区别如下:

  • 分类需要训练数据集,属于有监督的学习;而聚类不需要训练数据集,属于无监督的学习。
  • 在进行分类以前,已知道数据的分类情况;而进行聚类以前,对目标数据的分类情况一无所知。常用的聚类方法包括统计分析方法、机器学习方法、神经网络方法等

离群点分析

异常

所有模式都是有趣的吗

数据挖掘的知识有三个重要问题需要回答:

  • 什么样的模式是有价值(感兴趣)的?价值度量
  • 挖掘系统能产生所有有价值的模式吗?算法的完全性问题
  • 数据挖掘到的模式是否都是有价值的知识?优化问题

相关文章:

  • 基于zyyo主页与無名の主页合并二改,一款适合新手的个人主页
  • c++ 简单的日志类 CCLog
  • SpringMVC:拦截器(Interceptor)
  • Python | 排队取奶茶
  • 老旧机子装LINUX——xubuntu
  • 自制植物大战僵尸:HTML5与JavaScript实现的简单游戏
  • JavaScript入门宝典:核心知识全攻略(下)
  • RabbitMQ怎么保证可靠性
  • [C#]使用OpenCvSharp图像滤波中值滤波均值滤波高通滤波双边滤波锐化滤波自定义滤波
  • 国产操作系统上Vim的详解03--使用Vundle插件管理器来安装和使用插件 _ 统信 _ 麒麟 _ 中科方德
  • 数据结构与算法笔记:基础篇 - 散列表(下):为什么散列表和链表经常会一起使用?
  • linux flask | 接口保持在后台一直运行、python后端接口长期调用、python后台持续运行方法、python提供后端接口
  • 2024上海初中生古诗文大会倒计时4个多月:单选题真题和独家解析
  • 使用亮数据代理IP爬取PubMed文章链接和邮箱地址
  • 常见八大排序(纯C语言版)
  • 【编码】-360实习笔试编程题(二)-2016.03.29
  • ABAP的include关键字,Java的import, C的include和C4C ABSL 的import比较
  • Codepen 每日精选(2018-3-25)
  • create-react-app做的留言板
  • javascript 哈希表
  • java取消线程实例
  • LeetCode18.四数之和 JavaScript
  • leetcode98. Validate Binary Search Tree
  • pdf文件如何在线转换为jpg图片
  • React的组件模式
  • Vue源码解析(二)Vue的双向绑定讲解及实现
  • 关于for循环的简单归纳
  • 记一次和乔布斯合作最难忘的经历
  • 快速构建spring-cloud+sleuth+rabbit+ zipkin+es+kibana+grafana日志跟踪平台
  • 扑朔迷离的属性和特性【彻底弄清】
  • 入口文件开始,分析Vue源码实现
  • 入手阿里云新服务器的部署NODE
  • 我感觉这是史上最牛的防sql注入方法类
  • 译自由幺半群
  • 原生JS动态加载JS、CSS文件及代码脚本
  • ​iOS安全加固方法及实现
  • ## 基础知识
  • #鸿蒙生态创新中心#揭幕仪式在深圳湾科技生态园举行
  • #我与Java虚拟机的故事#连载10: 如何在阿里、腾讯、百度、及字节跳动等公司面试中脱颖而出...
  • (12)Hive调优——count distinct去重优化
  • (Redis使用系列) Springboot 使用redis的List数据结构实现简单的排队功能场景 九
  • (webRTC、RecordRTC):navigator.mediaDevices undefined
  • (zt)最盛行的警世狂言(爆笑)
  • (二)linux使用docker容器运行mysql
  • (力扣)循环队列的实现与详解(C语言)
  • (续)使用Django搭建一个完整的项目(Centos7+Nginx)
  • (原创)Stanford Machine Learning (by Andrew NG) --- (week 9) Anomaly DetectionRecommender Systems...
  • (转)VC++中ondraw在什么时候调用的
  • *p++,*(p++),*++p,(*p)++区别?
  • .env.development、.env.production、.env.staging
  • .Net MVC4 上传大文件,并保存表单
  • .net 写了一个支持重试、熔断和超时策略的 HttpClient 实例池
  • .NET 中创建支持集合初始化器的类型
  • .net反编译的九款神器
  • .net后端程序发布到nignx上,通过nginx访问