当前位置: 首页 > news >正文

BJFU|大数据基础考前速记(含考试大纲与复习笔记)

考试大纲与复习笔记在文末

考前速记

2010年前后,大数据、云计算、物联网的快速发展拉开了第三次信息化浪潮的大幕。

信息科技需要解决信息存储、信息处理和信息传输三个核心问题。解决方式是:存储设备容量不断增加、CPU处理能力大幅提升、网络带宽不断增加。

信息:数据的有序排列;数据:信息的基本单位

人类社会的数据产生方式:运营式系统阶段、用户原创内容阶段、感知式系统阶段

大数据的4V:数据量大(Volume)、数据类型繁多(Variety)、处理速度快(Velocity)、价值密度低(Value)

人类科学研究:实验科学、理论科学、计算科学、数据密集型科学

大数据对思维方式的影响:全样而非抽样、效率而非精确、相关而非因果

大数据对社会发展的影响:大数据决策成为一种新的决策方式、大数据应用促进信息技术与各行业的深度融合、大数据开发推动新技术和新应用的不断涌现

大数据技术主要包括:数据采集与预处理、数据存储和管理、数据处理和分析、数据安全和隐私保护等几个层面的内容

大数据计算模式有:批处理计算、流计算、图计算、查询分析计算

云计算的概念:云计算实现了通过网络提供可伸缩的、廉价的分布式计算能力,用户只需要在具备网络接入条件的地方,就可以随时随地获得所需的各种IT资源。

云计算代表了以虚拟化技术为核心、以低成本为目标、动态可拓展的网络应用基础设施。

云计算的三种典型模式:基础设施即服务、平台即服务、软件即服务。

云计算的关键技术:虚拟化、分布式存储、分布式计算、多租户等。

虚拟化是基石,指将一台计算机虚拟为多台计算机,在一台计算机上同时运行多台逻辑计算机。

物联网:物物相连的互联网,是互联网的延伸。

物联网关键技术:识别和感知技术、网络和通信技术、数据挖掘与融合技术

分布式文件系统一般采用C/S模式

目前的分布式文件系统所采用的计算机集群都是由普通硬件构成的

集群中的计算机节点主要放在机架上,同一机架不同节点采用网络互联,多个不同机架之间采用另一级网络或者交换机互连。

分布式文件系统中块是读写的基本单元,如果一个文件小于一个数据块的大小,并不占用整个数据块的存储空间。

分布式文件系统的物理结构:计算机集群中多个节点——主节点(名称节点)和从节点(数据节点)。

名称节点负责文件和目录的创建、删除与重命名,管理数据节点与文件块的映射关系。客户端只有访问名称节点才能找到请求的文件块所在位置,进而读取所需文件块。数据节点负责数据的存储于读取,在存储时由名称节点分配存储位置,然后由客户端把数据直接写入数据节点;在读取时客户端从名称节点获得数据块节点和文件块的映射关系,然后就可以到相应位置访问。

保证分布式文件系统数据完整性——多副本存储

HDFS采用了抽象的块的概念,支持大规模文件存储、简化系统设计、适合数据备份。

HDFS中,名称节点负责管理分布式文件系统的命名空间。FsImage用于维护文件系统树中文件和文件夹的元数据,操作日志文件EditLog记录了针对文件的操作。

名称节点记录了文件中各个块所在数据节点的位置信息,但并不持久地存储,而是在系统启动时扫描所有数据并重构。

第二名称节点——解决EditLog逐渐变大的问题。功能:减少EditLog文件大小,缩短名称节点重启时间、作为名称节点的“检查点”,保存名称节点中元数据信息。

HDFS采用主从(M/S)结构模型,一个名称节点和多个数据节点。

“心跳”信息——报告数据节点状态。

名称节点不参与数据传输——提高数据访问速度。

HDFS命名空间包含目录、文件和块,整个HDFS集群只有一个命名空间并且只有唯一一个名称节点。

HDFS通信协议是建立在TCP/IP基础上的

名称节点和数据节点之间使用数据节点协议进行交互。

HDFS采用多副本存储方式,保证容错性与可用性。其优点是:加快数据传输速度、容易检查数据错误、保证数据可靠性

HDFS的数据存放以机架为基础,默认每个数据节点都在不同的机架上。这样的缺点是:写入数据的时候不能充分利用同一机架内部机器之间的带宽;优点是:获得数据可靠性,加大读取速度,更容易实现负载均衡与错误处理。

数据读取:根据API

数据复制:流水线复制策略

名称节点出错:到远程挂载的网络文件系统中获取备份的元数据信息放到第二名称节点恢复,并把第二名称节点作为名称节点使用。

数据节点出错:接收不到“心跳”信息,标记为“死机”,定期启动冗余复制生成副本。HDFS可以调整冗余数据的位置

数据出错:客户端请求到另外一个数据节点读取该文件块。

复习大纲:

大数据、云计算、人工智能技术三者的关系

HDFS的主从结构、名称数据节点、流水作业方式读写过程基本操作

HBase的HDFS关系、结构、不同的表示方式(视图)、内部体系结构、内外存置换、设计数据库

MAPReduce:批处理、两个函数的特点(分别并行)、Shuffe的过程、给一个任务编写函数(不写代码)

NoSQL数据库(四种类型)、不看CAP

HDFS HA: secondary node实现、YARN的设计思路

Spark:和HADOOP区别、RDD、DAG、架构设计、血缘、宽窄依赖的联系与区别

Flink:lambda架构、传输处理沉淀三层

流数据处理:包含了什么

复习笔记

BJFU-大数据考点+PPT摘录.docx资源-CSDN文库

相关文章:

  • Pygame教程07:键盘常量+键盘事件的2种捕捉方式
  • SQL: 触发器/存储过程/游标的操作
  • System类 --java学习笔记
  • 拍立淘API:助力电商企业快速定位目标客户
  • websocket 使用示例
  • 实现QT中qDebug()的日志重定向
  • GPT-prompt大全
  • 【DevOps基础篇】容器化架构基础设施监控方案
  • 20240312-2-贪心算法
  • 基于Qt 和python 的自动升级功能
  • Docker:部署微服务集群
  • 在没有推出硬盘的情况下,重启mac电脑,外接移动硬盘无法加载显示?
  • 国内哪个工具可以平替chatgpt?国内有哪些比较好用的大模型gpt?
  • ‘UnityEngine.Application‘ does not contain a definition for isBatchMode
  • 迷茫了!去大厂还是创业?
  • 【Redis学习笔记】2018-06-28 redis命令源码学习1
  • 5分钟即可掌握的前端高效利器:JavaScript 策略模式
  • Dubbo 整合 Pinpoint 做分布式服务请求跟踪
  • FastReport在线报表设计器工作原理
  • gitlab-ci配置详解(一)
  • mongo索引构建
  • MySQL数据库运维之数据恢复
  • SAP云平台运行环境Cloud Foundry和Neo的区别
  • ViewService——一种保证客户端与服务端同步的方法
  • Vue UI框架库开发介绍
  • vue+element后台管理系统,从后端获取路由表,并正常渲染
  • 对超线程几个不同角度的解释
  • 构建工具 - 收藏集 - 掘金
  • 批量截取pdf文件
  • 浅谈Golang中select的用法
  • 如何用Ubuntu和Xen来设置Kubernetes?
  • 问:在指定的JSON数据中(最外层是数组)根据指定条件拿到匹配到的结果
  • 一天一个设计模式之JS实现——适配器模式
  • 用jquery写贪吃蛇
  • 在electron中实现跨域请求,无需更改服务器端设置
  • #etcd#安装时出错
  • #if和#ifdef区别
  • #pragma once与条件编译
  • $con= MySQL有关填空题_2015年计算机二级考试《MySQL》提高练习题(10)
  • $GOPATH/go.mod exists but should not goland
  • (2)nginx 安装、启停
  • (env: Windows,mp,1.06.2308310; lib: 3.2.4) uniapp微信小程序
  • (PWM呼吸灯)合泰开发板HT66F2390-----点灯大师
  • (超详细)2-YOLOV5改进-添加SimAM注意力机制
  • (二)正点原子I.MX6ULL u-boot移植
  • ***利用Ms05002溢出找“肉鸡
  • .NET CORE 3.1 集成JWT鉴权和授权2
  • .NET delegate 委托 、 Event 事件,接口回调
  • .net 受管制代码
  • .NET6实现破解Modbus poll点表配置文件
  • .net反编译工具
  • .Net环境下的缓存技术介绍
  • .NET运行机制
  • /dev下添加设备节点的方法步骤(通过device_create)
  • @31省区市高考时间表来了,祝考试成功