当前位置: 首页 > news >正文

【系统架构设计】数据库系统(五)

数据库系统(五)

  • 数据库模式与范式
  • 数据库设计
  • 备份与恢复
  • 分布式数据库系统
  • 数据仓库
  • 数据挖掘
  • NoSQL
  • 大数据

数据库模式与范式

数据库设计

备份与恢复

分布式数据库系统

数据仓库

数据挖掘

对数据挖掘技术进行支持的三种基础技术已经发展成熟,它们是 海量数据搜集、强大的多处理器计算机和数据挖掘算法

从技术角度看,数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。这个定义包括好几层含义:

  • 数据源必须是真实的、大量的、含噪声的;
  • 发现的是用户感兴趣的知识;
  • 发现的知识要可接受、可理解、可运用;
  • 并不要求发现放之四海而皆准的知识,仅支持特定的发现问题。

ps : 数据中存在着错误或异常 (偏离期望值)的数据,即为 ** 噪声** 。

数据挖掘与传统的数据分析(如查询、报表、联机应用分析)的本质区别是数据挖掘是在没有明确假设的前提下去挖掘信息、发现知识。数据挖掘所得到的信息应具有先知,有效和可实用三个特征。

聚类分析是根据物以类聚的原理,将本身没有类别的样本聚集成不同的组,并且对每个这样的组进行描述的过程。其主要依据是聚到同一个组中的样本应该批次相似,而属于不同组的样本应该足够不相似。

ps:注意聚类和分类的区别,聚类根据没有具体类别,只是相似;分类有明确类别。

数据挖掘的大致流程:

  1. 问题明确
  2. 建立数据挖掘库
    要进行数据挖掘必须要收集要挖掘的数据资源,一般建议要挖掘的数据都收集到一个数据库中,而不是采用原有的数据库或数据仓库。这是因为大部分情况下需要修改要挖掘的数据,而且还会遇到采用外部数据的情况;另外,数据挖掘还要对数据进行各种纷繁复杂的统计分析,而数据仓库可能不支持这些数据结构。
  3. 分析数据
  4. 调整数据
    通过上述步骤的操作,对数据的状态和趋势有了进一步的了解,这时要尽可能对问题解决的要求能进一步明确化、进一步量化。针对问题的需求对数据进行增删,按照对整个数据挖掘过程的新认识组合或生成一个新的变量,以体现对状态的有效描述。
  5. 模型化
  6. 评价和解释

NoSQL

NoSQL 即 Not Only SQL,可直译“不仅仅是SQL”。NoSQL 数据存储不需要固定的表结构,通常也不存在连接操作。在大数据存取上具备关系型数据库无法比拟的性能优势。

与关系型数据库相比,NoSQL数据库具有以下几个优点

  1. 易扩展
    NoSQL 数据库种类繁多,但是一个共同的特点都是去掉关系数据库的关系型特性。数据之间无关系,这样就非常容易扩展。

  2. 大数据量,高性能

NoSQL数据库都具有非常高的读写性能,尤其是在大数据量下,同样表现优秀。这得益于它的无关系性,数据库的结构简单。一般MySQL 使用Query Cache ,每次表一更新Cache 就失效,它是一种大粒度的Cache ,在针对web2.0的交互频繁的应用,Cache 性能不高。而NoSQL的Cache 是记录级,是一种细粒度的Cache,所以NoSQL在这个层面上来说性能就高很多。

ps: 粒度就是同一维度下,数据统计的粗细程度,计算机领域中粒度指系统内存扩展增量的最小值。数据库粒度是指数据仓库的数据单位中保存数据的细化或综合程度的级别。细化程度越高,粒度级就越小;相反,细化程度越低,粒度级就越大

  1. 灵活的数据模型
    NoSQL 无须事先为要存储的数据建立字段,随时可以存储自定义的数据格式。

  2. 高可用
    NoSQL 在不太影响性能的情况,就可以方便地实现高可用的架构。

缺点也有很多,如:并未形成一定标准,各种产品层出不穷,内部混乱,各种项目还需时间来检验,缺乏相关专家技术的支持等。

大数据

大数据(big data)指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。

业界通常用4个V(Volume 、Variety 、Value 、Velocity),翻译是 “数量 、 品种 、 价值 、 速度”,来概括大数据的特征。分别表示 ** 数据体量巨多、数据类型繁多、价值密度低、处理速度快**。

ps: 价值密度的高低与数据总量的大小成反比。

在这里插入图片描述

相关文章:

  • 北京网站建设多少钱?
  • 辽宁网页制作哪家好_网站建设
  • 高端品牌网站建设_汉中网站制作
  • 【Unity】线性代数基础:矩阵、矩阵乘法、转置矩阵、逆矩阵、正交矩阵等
  • 一体化运维:构建全面的IT监控指标体系
  • LE-50821F/FA激光扫描传感器|360°避障雷达之性能参数与配置清单说明
  • linux:制作systemctl系统服务
  • 如何在wxPython GUI中使用BoxSizers实现整齐布局
  • 如何把STM32的调试口设置为普通的IO口?
  • PHP同城派送系统小程序源码
  • 富格林:深究安全出金做单经验
  • 电路中电阻,电容和电感作用总结
  • 大模型算法面试题(二十)
  • Scala基础入门:从零开始学习Scala编程
  • BVH、FBX 文件学习
  • 黑马微服务—Docker
  • 外企面企必备:IT技术面试英文高频面试题
  • 【C语言】qsort函数的介绍和使用
  • 【刷算法】求1+2+3+...+n
  • dva中组件的懒加载
  • ES10 特性的完整指南
  • HomeBrew常规使用教程
  • Javascript弹出层-初探
  • Linux Process Manage
  • OSS Web直传 (文件图片)
  • Rancher-k8s加速安装文档
  • ReactNativeweexDeviceOne对比
  • unity如何实现一个固定宽度的orthagraphic相机
  • 创建一种深思熟虑的文化
  • 关于使用markdown的方法(引自CSDN教程)
  • 基于Dubbo+ZooKeeper的分布式服务的实现
  • 聊聊sentinel的DegradeSlot
  • 使用 @font-face
  • 使用 Node.js 的 nodemailer 模块发送邮件(支持 QQ、163 等、支持附件)
  • 通过来模仿稀土掘金个人页面的布局来学习使用CoordinatorLayout
  • 阿里云IoT边缘计算助力企业零改造实现远程运维 ...
  • ​猴子吃桃问题:每天都吃了前一天剩下的一半多一个。
  • ​软考-高级-信息系统项目管理师教程 第四版【第23章-组织通用管理-思维导图】​
  • ### RabbitMQ五种工作模式:
  • #NOIP 2014# day.1 T2 联合权值
  • $.ajax中的eval及dataType
  • (八)Spring源码解析:Spring MVC
  • (二)PySpark3:SparkSQL编程
  • (二十四)Flask之flask-session组件
  • (附源码)spring boot火车票售卖系统 毕业设计 211004
  • (六) ES6 新特性 —— 迭代器(iterator)
  • (原+转)Ubuntu16.04软件中心闪退及wifi消失
  • (转)Android学习笔记 --- android任务栈和启动模式
  • .net 4.0 A potentially dangerous Request.Form value was detected from the client 的解决方案
  • .NET Core 发展历程和版本迭代
  • .NET 使用 ILMerge 合并多个程序集,避免引入额外的依赖
  • .net通用权限框架B/S (三)--MODEL层(2)
  • [000-01-022].第03节:RabbitMQ环境搭建
  • [2013AAA]On a fractional nonlinear hyperbolic equation arising from relative theory
  • [240621] Anthropic 发布了 Claude 3.5 Sonnet AI 助手 | Socket.IO 拒绝服务漏洞
  • [APIO2012] 派遣 dispatching
  • [AutoSar]工程中的cpuload陷阱(三)测试
  • [BJDCTF2020]The mystery of ip