当前位置：首页 > news >正文

BJFU|大数据基础考前速记（含考试大纲与复习笔记）

news 来源：原创 2024/5/20 4:49:35

考试大纲与复习笔记在文末

考前速记

2010年前后，大数据、云计算、物联网的快速发展拉开了第三次信息化浪潮的大幕。

信息科技需要解决信息存储、信息处理和信息传输三个核心问题。解决方式是：存储设备容量不断增加、CPU处理能力大幅提升、网络带宽不断增加。

信息：数据的有序排列；数据：信息的基本单位

人类社会的数据产生方式：运营式系统阶段、用户原创内容阶段、感知式系统阶段

大数据的4V：数据量大（Volume）、数据类型繁多（Variety）、处理速度快（Velocity）、价值密度低（Value）

人类科学研究：实验科学、理论科学、计算科学、数据密集型科学

大数据对思维方式的影响：全样而非抽样、效率而非精确、相关而非因果

大数据对社会发展的影响：大数据决策成为一种新的决策方式、大数据应用促进信息技术与各行业的深度融合、大数据开发推动新技术和新应用的不断涌现

大数据技术主要包括：数据采集与预处理、数据存储和管理、数据处理和分析、数据安全和隐私保护等几个层面的内容

大数据计算模式有：批处理计算、流计算、图计算、查询分析计算

云计算的概念：云计算实现了通过网络提供可伸缩的、廉价的分布式计算能力，用户只需要在具备网络接入条件的地方，就可以随时随地获得所需的各种IT资源。

云计算代表了以虚拟化技术为核心、以低成本为目标、动态可拓展的网络应用基础设施。

云计算的三种典型模式：基础设施即服务、平台即服务、软件即服务。

云计算的关键技术：虚拟化、分布式存储、分布式计算、多租户等。

虚拟化是基石，指将一台计算机虚拟为多台计算机，在一台计算机上同时运行多台逻辑计算机。

物联网：物物相连的互联网，是互联网的延伸。

物联网关键技术：识别和感知技术、网络和通信技术、数据挖掘与融合技术

分布式文件系统一般采用C/S模式

目前的分布式文件系统所采用的计算机集群都是由普通硬件构成的

集群中的计算机节点主要放在机架上，同一机架不同节点采用网络互联，多个不同机架之间采用另一级网络或者交换机互连。

分布式文件系统中块是读写的基本单元，如果一个文件小于一个数据块的大小，并不占用整个数据块的存储空间。

分布式文件系统的物理结构：计算机集群中多个节点——主节点（名称节点）和从节点（数据节点）。

名称节点负责文件和目录的创建、删除与重命名，管理数据节点与文件块的映射关系。客户端只有访问名称节点才能找到请求的文件块所在位置，进而读取所需文件块。数据节点负责数据的存储于读取，在存储时由名称节点分配存储位置，然后由客户端把数据直接写入数据节点；在读取时客户端从名称节点获得数据块节点和文件块的映射关系，然后就可以到相应位置访问。

保证分布式文件系统数据完整性——多副本存储

HDFS采用了抽象的块的概念，支持大规模文件存储、简化系统设计、适合数据备份。

HDFS中，名称节点负责管理分布式文件系统的命名空间。FsImage用于维护文件系统树中文件和文件夹的元数据，操作日志文件EditLog记录了针对文件的操作。

名称节点记录了文件中各个块所在数据节点的位置信息，但并不持久地存储，而是在系统启动时扫描所有数据并重构。

第二名称节点——解决EditLog逐渐变大的问题。功能：减少EditLog文件大小，缩短名称节点重启时间、作为名称节点的“检查点”，保存名称节点中元数据信息。

HDFS采用主从（M/S）结构模型，一个名称节点和多个数据节点。

“心跳”信息——报告数据节点状态。

名称节点不参与数据传输——提高数据访问速度。

HDFS命名空间包含目录、文件和块，整个HDFS集群只有一个命名空间并且只有唯一一个名称节点。

HDFS通信协议是建立在TCP/IP基础上的

名称节点和数据节点之间使用数据节点协议进行交互。

HDFS采用多副本存储方式，保证容错性与可用性。其优点是：加快数据传输速度、容易检查数据错误、保证数据可靠性